論文の概要: UniVideo: Unified Understanding, Generation, and Editing for Videos
- arxiv url: http://arxiv.org/abs/2510.08377v1
- Date: Thu, 09 Oct 2025 16:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.179983
- Title: UniVideo: Unified Understanding, Generation, and Editing for Videos
- Title(参考訳): UniVideo:ビデオの統一的な理解、生成、編集
- Authors: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen,
- Abstract要約: 統合モデリングをビデオ領域に拡張する汎用フレームワークUniVideoを提案する。
UniVideoは、単一のマルチモーダル命令パラダイムの下で、多様なビデオ生成と編集タスクを統合する。
We show that UniVideo match or over the state-the-the-art task-specific baselines in text/image-to-video generation, in-context video generation and in-context video editing。
- 参考スコア(独自算出の注目度): 60.90505182401494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models have shown promising results in multimodal content generation and editing but remain largely limited to the image domain. In this work, we present UniVideo, a versatile framework that extends unified modeling to the video domain. UniVideo adopts a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. This design enables accurate interpretation of complex multimodal instructions while preserving visual consistency. Built on this architecture, UniVideo unifies diverse video generation and editing tasks under a single multimodal instruction paradigm and is jointly trained across them. Extensive experiments demonstrate that UniVideo matches or surpasses state-of-the-art task-specific baselines in text/image-to-video generation, in-context video generation and in-context video editing. Notably, the unified design of UniVideo enables two forms of generalization. First, UniVideo supports task composition, such as combining editing with style transfer, by integrating multiple capabilities within a single instruction. Second, even without explicit training on free-form video editing, UniVideo transfers its editing capability from large-scale image editing data to this setting, handling unseen instructions such as green-screening characters or changing materials within a video. Beyond these core capabilities, UniVideo also supports visual-prompt-based video generation, where the MLLM interprets visual prompts and guides the MMDiT during synthesis. To foster future research, we will release our model and code.
- Abstract(参考訳): 統一マルチモーダルモデルは、マルチモーダルコンテンツの生成と編集において有望な結果を示しているが、画像領域に限られている。
本稿では,ビデオ領域に統一モデリングを拡張する汎用フレームワークUniVideoを紹介する。
UniVideo はマルチモーダル大言語モデル (MLLM) とビデオ生成のためのマルチモーダル DiT (MMDiT) を組み合わせたデュアルストリーム設計を採用している。
この設計は、視覚的一貫性を維持しながら、複雑なマルチモーダル命令の正確な解釈を可能にする。
このアーキテクチャに基づいて構築されたUniVideoは、単一のマルチモーダル命令パラダイムの下で多様なビデオ生成と編集タスクを統一し、それらを共同で訓練する。
広範にわたる実験により、UniVideoはテキスト/画像・ビデオ生成、テキスト内ビデオ生成、テキスト内ビデオ編集において、最先端のタスク固有のベースラインと一致または超えることを示した。
特に、UniVideoの統一設計は2種類の一般化を可能にする。
まず、UniVideoは1つの命令に複数の機能を統合することで、編集とスタイル転送を組み合わせたタスク構成をサポートする。
第二に、自由形式のビデオ編集を明示的に訓練することなく、UniVideoはその編集機能を大規模な画像編集データからこの設定に転送し、グリーンスクリーン文字やビデオ内の素材の変更といった目に見えない命令を処理する。
これらのコア機能以外にも、UniVideoはビジュアルプロンプトベースのビデオ生成をサポートしており、MLLMは合成中に視覚的プロンプトを解釈し、MMDiTを誘導する。
将来の研究を促進するため、私たちはモデルとコードを公開します。
関連論文リスト
- OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation [22.970558073760433]
OmniV2Vは様々な操作に基づいて様々なシナリオで動画を生成・編集できるビデオモデルである。
さらに、LLaVAに基づく視覚テキスト命令モジュールを設計し、視覚コンテンツと命令の対応を効果的に理解できるようにする。
実験によると、OmniV2Vは、多くのビデオ生成および編集タスクのための、最良のオープンソースおよび商用モデルと同様に、時には優れた機能を示す。
論文 参考訳(メタデータ) (2025-06-02T15:42:06Z) - VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models [43.46536102838717]
VideoDreamerは、カスタマイズされたマルチオブジェクトのテキスト・ツー・ビデオ生成のための新しいフレームワークである。
与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。