論文の概要: DragVideo: Interactive Drag-style Video Editing
- arxiv url: http://arxiv.org/abs/2312.02216v1
- Date: Sun, 3 Dec 2023 10:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:25:31.587717
- Title: DragVideo: Interactive Drag-style Video Editing
- Title(参考訳): DragVideo:インタラクティブなドラッグスタイルのビデオ編集
- Authors: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: DragVideoでは、時間的一貫性を維持しながら動画コンテンツを編集するために、同様のドラッグスタイルのユーザーインタラクションが採用されている。
サンプル固有のLoRAファインチューニングと相互自己注意制御を用いて,DoVe法による映像の忠実な再構成を確実にする。
DragVideo Webユーザインターフェースを含む私たちのコードはリリースされます。
- 参考スコア(独自算出の注目度): 62.867120306514515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing visual content on videos remains a formidable challenge with two main
issues: 1) direct and easy user control to produce 2) natural editing results
without unsightly distortion and artifacts after changing shape, expression and
layout. Inspired by DragGAN, a recent image-based drag-style editing technique,
we address above issues by proposing DragVideo, where a similar drag-style user
interaction is adopted to edit video content while maintaining temporal
consistency. Empowered by recent diffusion models as in DragDiffusion,
DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which
optimizes diffused video latents generated by video U-Net to achieve the
desired control. Specifically, we use Sample-specific LoRA fine-tuning and
Mutual Self-Attention control to ensure faithful reconstruction of video from
the DoVe method. We also present a series of testing examples for drag-style
video editing and conduct extensive experiments across a wide array of
challenging editing tasks, such as motion editing, skeleton editing, etc,
underscoring DragVideo's versatility and generality. Our codes including the
DragVideo web user interface will be released.
- Abstract(参考訳): ビデオ上のビジュアルコンテンツの編集は、大きな課題として2つある。
1)直接的かつ容易なユーザ制御
2)自然編集の結果,形状,表現,レイアウトが変化した後,不明瞭な歪みやアーティファクトは生じない。
最近の画像ベースのドラッグスタイル編集技術であるdragganにインスパイアされたdragvideoは、時間的一貫性を維持しながらビデオコンテンツの編集に類似したドラッグスタイルのユーザインタラクションを採用する。
DragDiffusionのような最近の拡散モデルを利用して、DragVideoにはDrag-on-Video U-Net(DoVe)編集方法が含まれており、ビデオU-Netが生成した拡散したビデオラテントを最適化して所望の制御を実現する。
具体的には、サンプル固有のLoRA微調整と相互自己注意制御を用いて、DoVe法による映像の忠実な再構成を保証する。
また,ドラッグスタイルビデオ編集のための一連のテスト例を示し,モーション編集やスケルトン編集など,dragvideoの汎用性と汎用性を強調する,幅広い編集タスクにわたる広範な実験を行う。
DragVideo Webユーザインターフェースを含む私たちのコードはリリースされます。
関連論文リスト
- I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。
NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。
多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文 参考訳(メタデータ) (2023-12-10T16:28:32Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。