論文の概要: UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
- arxiv url: http://arxiv.org/abs/2512.07831v1
- Date: Mon, 08 Dec 2025 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.02775
- Title: UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
- Title(参考訳): UnityVideo:World-Awareビデオ生成を支援するマルチモーダルマルチタスク学習の統合
- Authors: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia,
- Abstract要約: 私たちは、世界対応のビデオ生成のための統合フレームワークUnityVideoを紹介します。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)文脈内学習者によるモダリティ・スイッチャーの2つのコアコンポーネントを特徴とする。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
- 参考スコア(独自算出の注目度): 61.98887854225878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
- Abstract(参考訳): 最近のビデオ生成モデルは、印象的な合成能力を示すが、単一のモダリティ条件付けによって制限され、その全体的世界理解を制限している。
これは、クロスモーダルな相互作用が不十分で、包括的な世界知識表現のための限定的なモーダルな多様性が原因である。
この制限に対処するため、UnityVideoは、複数のモード(セグメンテーションマスク、人間の骨格、DensePose、光学フロー、深度マップ)を共同で学習し、トレーニングパラダイムである。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)モジュールパラメータと文脈学習による統一処理を可能にするコンテキスト内学習器を備えたモダリティスイッチャーの2つのコアコンポーネントを特徴とする。
大規模な統合データセットに1.3Mサンプルをコントリビュートする。
共同最適化により、UnityVideoは収束を加速し、ゼロショットの一般化を目に見えないデータに大幅に拡張する。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
コードとデータは、https://github.com/dvlab-research/UnityVideoにある。
関連論文リスト
- Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。