論文の概要: Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing
- arxiv url: http://arxiv.org/abs/2602.08820v1
- Date: Mon, 09 Feb 2026 15:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.340085
- Title: Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing
- Title(参考訳): Omni-Video 2: 統合ビデオ生成と編集のためのMLLM-Conditioned Diffusionのスケーリング
- Authors: Hao Yang, Zhiyu Tan, Jia Gong, Luozheng Qin, Hesen Chen, Xiaomeng Yang, Yuqing Sun, Yuetan Lin, Mengping Yang, Hao Li,
- Abstract要約: 本稿では,事前訓練されたマルチモーダル大言語モデル(MLLM)とビデオ拡散モデルとを接続し,ビデオ生成と編集を行うスケーラブルで効率的なモデルを提案する。
我々のキーとなる考え方は、MLLMの理解と推論能力を利用して、明示的なターゲットキャプションを生成し、ユーザー指示を解釈することである。
我々は,微細なビデオ編集のためのFiVEベンチマークとテキスト・ツー・ビデオ生成のためのVBenchベンチマークにおいて,Omni-Video 2の性能を評価する。
- 参考スコア(独自算出の注目度): 21.525921468472685
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Omni-Video 2, a scalable and computationally efficient model that connects pretrained multimodal large-language models (MLLMs) with video diffusion models for unified video generation and editing. Our key idea is to exploit the understanding and reasoning capabilities of MLLMs to produce explicit target captions to interpret user instructions. In this way, the rich contextual representations from the understanding model are directly used to guide the generative process, thereby improving performance on complex and compositional editing. Moreover, a lightweight adapter is developed to inject multimodal conditional tokens into pretrained text-to-video diffusion models, allowing maximum reuse of their powerful generative priors in a parameter-efficient manner. Benefiting from these designs, we scale up Omni-Video 2 to a 14B video diffusion model on meticulously curated training data with quality, supporting high quality text-to-video generation and various video editing tasks such as object removal, addition, background change, complex motion editing, \emph{etc.} We evaluate the performance of Omni-Video 2 on the FiVE benchmark for fine-grained video editing and the VBench benchmark for text-to-video generation. The results demonstrate its superior ability to follow complex compositional instructions in video editing, while also achieving competitive or superior quality in video generation tasks.
- Abstract(参考訳): Omni-Video 2は、事前訓練されたマルチモーダル大言語モデル(MLLM)とビデオ拡散モデルとを接続し、ビデオ生成と編集を行うスケーラブルで計算効率の良いモデルである。
我々のキーとなる考え方は、MLLMの理解と推論能力を利用して、明示的なターゲットキャプションを生成し、ユーザー指示を解釈することである。
このように、理解モデルからのリッチな文脈表現は、生成過程を導くために直接使用されるため、複雑で構成的な編集の性能が向上する。
さらに,マルチモーダル・コンディショナル・トークンを事前訓練したテキスト・ビデオ拡散モデルに注入し,パラメータ効率のよい手法で強力な生成前処理を最大限に再利用する軽量アダプタを開発した。
これらの設計に適合して,Omni-Video 2を精度良くキュレートされたトレーニングデータ上に14Bビデオ拡散モデルにスケールアップし,高品質なテキスト・ビデオ生成をサポートし,オブジェクトの削除,追加,背景変更,複雑なモーション編集,\emph{etc>などの様々なビデオ編集タスクをサポートする。
ビデオの微粒化のためのFiVEベンチマークとテキスト・ツー・ビデオ生成のためのVBenchベンチマークにおいて,Omni-Video 2の性能を評価する。
その結果,映像編集における複雑な構成指示に従う能力と,映像生成タスクにおける競争力や優れた品質を実現する能力が示された。
関連論文リスト
- LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding [23.207637210563504]
LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
論文 参考訳(メタデータ) (2026-01-21T14:14:20Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [74.01707548681405]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。