論文の概要: DragVideo: Interactive Drag-style Video Editing
- arxiv url: http://arxiv.org/abs/2312.02216v2
- Date: Fri, 29 Mar 2024 14:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:07:17.690495
- Title: DragVideo: Interactive Drag-style Video Editing
- Title(参考訳): DragVideo:インタラクティブなドラッグスタイルのビデオ編集
- Authors: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: DragVideoはドラッグ・テンポラリなビデオ編集フレームワークだ。
動画を直感的で、ユーザの意図に忠実に編集し、ほとんど目立たない歪みやアーティファクトで、時間的一貫性を維持しながら編集することができる。
従来のプロンプトベースのビデオ編集では、前者の2つを行ない、画像ドラッグを直接適用することは最後に失敗するが、DragVideoの汎用性と汎用性が強調されている。
- 参考スコア(独自算出の注目度): 58.59845960686982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have shown their superior ability to generate photo-realistic video. However, how to accurately control (or edit) the video remains a formidable challenge. The main issues are: 1) how to perform direct and accurate user control in editing; 2) how to execute editings like changing shape, expression, and layout without unsightly distortion and artifacts to the edited content; and 3) how to maintain spatio-temporal consistency of video after editing. To address the above issues, we propose DragVideo, a general drag-style video editing framework. Inspired by DragGAN, DragVideo addresses issues 1) and 2) by proposing the drag-style video latent optimization method which gives desired control by updating noisy video latent according to drag instructions through video-level drag objective function. We amend issue 3) by integrating the video diffusion model with sample-specific LoRA and Mutual Self-Attention in DragVideo to ensure the edited result is spatio-temporally consistent. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion, skeleton editing, etc, underscoring DragVideo can edit video in an intuitive, faithful to the user's intention manner, with nearly unnoticeable distortion and artifacts, while maintaining spatio-temporal consistency. While traditional prompt-based video editing fails to do the former two and directly applying image drag editing fails in the last, DragVideo's versatility and generality are emphasized. Github link: https://github.com/RickySkywalker/DragVideo-Official.
- Abstract(参考訳): ビデオ生成モデルは、フォトリアリスティックなビデオを生成する優れた能力を示している。
しかし、ビデオを正確にコントロール(あるいは編集)する方法は、まだまだ難しい課題だ。
主な問題は次のとおりである。
1) 編集における直接的かつ正確なユーザコントロールの実施方法
2 形態、表現、レイアウトの変更等の編集を、目立たない歪みや編集内容のアーティファクトなしに行う方法。
3)編集後のビデオの時空間整合性を維持する方法。
以上の課題に対処するため,一般的なドラッグスタイルのビデオ編集フレームワークであるDragVideoを提案する。
DragGANにインスパイアされたDragVideoは問題に対処する
1)と
2) ドラッグ・スタイルの遅延最適化手法を提案し, ドラッグ・レベル・ドラッグ・オブジェクト・ファンクションを通したドラッグ・インストラクションに従ってノイズの多いビデオ・レイトを更新し, 所望の制御を行う。
We amend issue
3) ビデオ拡散モデルとサンプル特異的なLoRAとDragVideoの相互自己認識を組み合わせることで, 編集結果の時空間的整合性を確保する。
また、ドラッグスタイルのビデオ編集や、モーションやスケルトン編集など、さまざまな困難な編集タスクにわたる広範な実験、DragVideoのアンダースコーリングなど、ユーザの意図に忠実で、ほとんど目立たない歪みやアーティファクトを伴って、ビデオの編集を直感的に行うための一連のテスト例を提示する。
従来のプロンプトベースのビデオ編集では以前の2回は行われず、画像ドラッグの編集を直接適用しても最後には失敗するが、DragVideoの汎用性と汎用性が強調されている。
Githubのリンク:https://github.com/RickySkywalker/DragVideo-Official.com
関連論文リスト
- I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。
NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。
多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文 参考訳(メタデータ) (2023-12-10T16:28:32Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。