論文の概要: DragVideo: Interactive Drag-style Video Editing
- arxiv url: http://arxiv.org/abs/2312.02216v3
- Date: Mon, 22 Jul 2024 05:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:16:55.003833
- Title: DragVideo: Interactive Drag-style Video Editing
- Title(参考訳): DragVideo:インタラクティブなドラッグスタイルのビデオ編集
- Authors: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: DragVideoはドラッグ・テンポラリなビデオ編集フレームワークだ。
動画を直感的で、ユーザの意図に忠実に編集し、ほとんど目立たない歪みやアーティファクトで、時間的一貫性を維持しながら編集することができる。
従来のプロンプトベースのビデオ編集では、前者の2つを行ない、画像ドラッグを直接適用することは最後に失敗するが、DragVideoの汎用性と汎用性が強調されている。
- 参考スコア(独自算出の注目度): 58.59845960686982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have shown their superior ability to generate photo-realistic video. However, how to accurately control (or edit) the video remains a formidable challenge. The main issues are: 1) how to perform direct and accurate user control in editing; 2) how to execute editings like changing shape, expression, and layout without unsightly distortion and artifacts to the edited content; and 3) how to maintain spatio-temporal consistency of video after editing. To address the above issues, we propose DragVideo, a general drag-style video editing framework. Inspired by DragGAN, DragVideo addresses issues 1) and 2) by proposing the drag-style video latent optimization method which gives desired control by updating noisy video latent according to drag instructions through video-level drag objective function. We amend issue 3) by integrating the video diffusion model with sample-specific LoRA and Mutual Self-Attention in DragVideo to ensure the edited result is spatio-temporally consistent. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion, skeleton editing, etc, underscoring DragVideo can edit video in an intuitive, faithful to the user's intention manner, with nearly unnoticeable distortion and artifacts, while maintaining spatio-temporal consistency. While traditional prompt-based video editing fails to do the former two and directly applying image drag editing fails in the last, DragVideo's versatility and generality are emphasized. Github link: https://github.com/RickySkywalker/DragVideo-Official.
- Abstract(参考訳): ビデオ生成モデルは、フォトリアリスティックなビデオを生成する優れた能力を示している。
しかし、ビデオを正確にコントロール(あるいは編集)する方法は、まだまだ難しい課題だ。
主な問題は次のとおりである。
1) 編集における直接的かつ正確なユーザコントロールの実施方法
2 形態、表現、レイアウトの変更等の編集を、目立たない歪みや編集内容のアーティファクトなしに行う方法。
3)編集後のビデオの時空間整合性を維持する方法。
以上の課題に対処するため,一般的なドラッグスタイルのビデオ編集フレームワークであるDragVideoを提案する。
DragGANにインスパイアされたDragVideoは問題に対処する
1)と
2) ドラッグ・スタイルの遅延最適化手法を提案し, ドラッグ・レベル・ドラッグ・オブジェクト・ファンクションを通したドラッグ・インストラクションに従ってノイズの多いビデオ・レイトを更新し, 所望の制御を行う。
We amend issue
3) ビデオ拡散モデルとサンプル特異的なLoRAとDragVideoの相互自己認識を組み合わせることで, 編集結果の時空間的整合性を確保する。
また、ドラッグスタイルのビデオ編集や、モーションやスケルトン編集など、さまざまな困難な編集タスクにわたる広範な実験、DragVideoのアンダースコーリングなど、ユーザの意図に忠実で、ほとんど目立たない歪みやアーティファクトを伴って、ビデオの編集を直感的に行うための一連のテスト例を提示する。
従来のプロンプトベースのビデオ編集では以前の2回は行われず、画像ドラッグの編集を直接適用しても最後には失敗するが、DragVideoの汎用性と汎用性が強調されている。
Githubのリンク:https://github.com/RickySkywalker/DragVideo-Official.com
関連論文リスト
- Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文 参考訳(メタデータ) (2025-01-30T18:51:54Z) - DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
既存の方法は直感的で局所的な編集に苦労する。
DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T07:02:01Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。
NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。
多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文 参考訳(メタデータ) (2023-12-10T16:28:32Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。