論文の概要: OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation
- arxiv url: http://arxiv.org/abs/2506.01801v1
- Date: Mon, 02 Jun 2025 15:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.59147
- Title: OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation
- Title(参考訳): OmniV2V:動的コンテンツ操作によるビデオ生成と編集
- Authors: Sen Liang, Zhentao Yu, Zhengguang Zhou, Teng Hu, Hongmei Wang, Yi Chen, Qin Lin, Yuan Zhou, Xin Li, Qinglin Lu, Zhibo Chen,
- Abstract要約: OmniV2Vは様々な操作に基づいて様々なシナリオで動画を生成・編集できるビデオモデルである。
さらに、LLaVAに基づく視覚テキスト命令モジュールを設計し、視覚コンテンツと命令の対応を効果的に理解できるようにする。
実験によると、OmniV2Vは、多くのビデオ生成および編集タスクのための、最良のオープンソースおよび商用モデルと同様に、時には優れた機能を示す。
- 参考スコア(独自算出の注目度): 22.970558073760433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Diffusion Transformers (DiT) has brought significant advancements to video generation, especially in text-to-video and image-to-video tasks. Although video generation is widely applied in various fields, most existing models are limited to single scenarios and cannot perform diverse video generation and editing through dynamic content manipulation. We propose OmniV2V, a video model capable of generating and editing videos across different scenarios based on various operations, including: object movement, object addition, mask-guided video edit, try-on, inpainting, outpainting, human animation, and controllable character video synthesis. We explore a unified dynamic content manipulation injection module, which effectively integrates the requirements of the above tasks. In addition, we design a visual-text instruction module based on LLaVA, enabling the model to effectively understand the correspondence between visual content and instructions. Furthermore, we build a comprehensive multi-task data processing system. Since there is data overlap among various tasks, this system can efficiently provide data augmentation. Using this system, we construct a multi-type, multi-scenario OmniV2V dataset and its corresponding OmniV2V-Test benchmark. Extensive experiments show that OmniV2V works as well as, and sometimes better than, the best existing open-source and commercial models for many video generation and editing tasks.
- Abstract(参考訳): Diffusion Transformers (DiT) の出現は、特にテキスト・トゥ・ビデオや画像・トゥ・ビデオタスクにおいて、ビデオ生成に大きな進歩をもたらした。
映像生成は様々な分野に広く応用されているが、既存のモデルの多くは単一のシナリオに限られており、動的コンテンツ操作による多様な映像生成や編集を行うことはできない。
我々は,OmniV2Vを提案する。OmniV2Vは,オブジェクトの動き,オブジェクトの追加,マスク誘導ビデオ編集,試着,ペイント,アウトペイント,人間のアニメーション,コントロール可能なキャラクタービデオ合成など,さまざまな操作に基づいて,動画を生成・編集できるビデオモデルである。
上記のタスクの要求を効果的に統合した動的コンテンツ操作インジェクションモジュールについて検討する。
さらに、LLaVAに基づく視覚テキスト命令モジュールを設計し、視覚コンテンツと命令の対応を効果的に理解できるようにする。
さらに,包括的マルチタスクデータ処理システムを構築した。
様々なタスクに重複するデータが存在するため、このシステムはデータ拡張を効率的に行うことができる。
本システムを用いて,マルチタイプのOmniV2Vデータセットとその対応するOmniV2V-Testベンチマークを構築する。
大規模な実験により、OmniV2Vは、多くのビデオ生成および編集タスクのための、最も優れたオープンソースおよび商用モデルと同様に、時には優れた機能を示している。
関連論文リスト
- VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - VACE: All-in-One Video Creation and Editing [18.809248697934397]
VACEにより、ユーザーは作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できる。
VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
論文 参考訳(メタデータ) (2025-03-10T17:57:04Z) - Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM [28.64108439552772]
プロプライエタリなモデルから生成された大規模合成データセットを紹介する。
また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。
提案手法は,様々な映像タスクにまたがって最先端の成果を達成し,印象的な一般化を示す。
論文 参考訳(メタデータ) (2024-12-12T18:20:41Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。