論文の概要: Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator
- arxiv url: http://arxiv.org/abs/2604.08121v1
- Date: Thu, 09 Apr 2026 11:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.89138
- Title: Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator
- Title(参考訳): Uni-ViGU:拡散型ビデオジェネレータによる統合ビデオ生成と理解を目指して
- Authors: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li,
- Abstract要約: 視覚生成は、特にビデオにおいて、理解するよりも計算コストがかなり高い。
ビデオジェネレータを基盤として拡張することで、映像生成と理解を統一するフレームワークであるUni-ViGUを提案する。
実験により、Uni-ViGUは映像生成と理解の両方において競争性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 25.751284227739617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.
- Abstract(参考訳): 視覚的理解と生成を統合する統一マルチモーダルモデルは、基本的な課題に直面している。
この不均衡は、理解中心のMLLMを拡張して生成を支援するのではなく、ビデオジェネレータを基盤として、映像生成と理解を統一するフレームワークであるUni-ViGUを提案する。
本稿では,ビデオの連続フローマッチングとテキストの離散フローマッチングを単一プロセス内で実行し,コヒーレントなマルチモーダル生成を実現する統一フロー手法を提案する。
さらに,トランスフォーマーブロックをテキスト生成のための軽量なレイヤで拡張し,生成前のデータを保存するモダリティ駆動型MoEベースのフレームワークを提案する。
知識リコールは、学習されたテキスト-ビデオ対応を活用するための入力プロンプトを再構成するが、能力リファインメントは詳細なキャプションに微調整を施し、識別的な共有表現を確立する。
実験により、Uni-ViGUはビデオ生成と理解の両方において競合性能を達成し、世代中心アーキテクチャを統合マルチモーダルインテリジェンスへのスケーラブルなパスとして検証した。
Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.com
関連論文リスト
- VINO: A Unified Visual Generator with Interleaved OmniModal Context [36.71641694179164]
VINOは、単一のフレームワーク内で画像とビデオの生成と編集を行う統合ビジュアルジェネレータである。
タスク固有のモデルやモジュールを各モダリティに依存するのではなく、VINOは共有拡散バックボーンを使用する。
論文 参考訳(メタデータ) (2026-01-05T18:56:34Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Phantom: Subject-consistent video generation via cross-modal alignment [16.777805813950486]
シングルオブジェクトとマルチオブジェクトの両方の参照に統一されたビデオ生成フレームワークを提案する。
提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。
論文 参考訳(メタデータ) (2025-02-16T11:02:50Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。