論文の概要: DreamWorld: Unified World Modeling in Video Generation
- arxiv url: http://arxiv.org/abs/2603.00466v1
- Date: Sat, 28 Feb 2026 05:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.209734
- Title: DreamWorld: Unified World Modeling in Video Generation
- Title(参考訳): DreamWorld:ビデオ生成における統一された世界モデリング
- Authors: Boming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang,
- Abstract要約: 我々は、相補的な世界の知識をビデオジェネレータに統合する統合フレームワーク、textbfDreamWorldを紹介した。
我々はDreamWorldが世界の一貫性を改善し、VBenchでWan2.1を2.26ポイント上回ることを示す。
- 参考スコア(独自算出の注目度): 32.857497363728584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce \textbf{DreamWorld}, a unified framework that integrates complementary world knowledge into video generators via a \textbf{Joint World Modeling Paradigm}, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose \textit{Consistent Constraint Annealing (CCA)} to progressively regulate world-level constraints during training, and \textit{Multi-Source Inner-Guidance} to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at \href{https://github.com/ABU121111/DreamWorld}{\textcolor{mypink}{\textbf{Github}}}.
- Abstract(参考訳): ビデオ生成の進歩は目覚ましいが、既存のモデルは依然として表面的な可視性に限られており、世界の一貫性と統一された理解が欠如している。
先進的なアプローチは通常、世界関連の知識の1つの形式のみを取り入れるか、追加の知識を導入するための厳格なアライメント戦略に依存している。
しかし、単一世界の知識の整合性は、複数の異質次元(例えば、物理的コモンセンス、3D、時間的一貫性)を共同でモデル化する必要がある世界モデルを構成するには不十分である。
この制限に対処するため,<textbf{DreamWorld}は,相補的世界知識をビデオジェネレータに統合する統合フレームワークである。
しかし、これらの不均一な目的を自然に最適化することは、視覚的不安定性と時間的ひねりを引き起こす可能性がある。
この問題を緩和するために、トレーニング中の世界レベルの制約を段階的に規制する \textit{Consistent Constraint Annealing (CCA) と、推論時に学習世界の事前を強制する \textit{Multi-Source inner-Guidance} を提案する。
大規模な評価の結果、ドリームワールドは世界の一貫性を改善し、VBenchでWan2.1を2.26ポイント上回る結果となった。
コードは \href{https://github.com/ABU121111/DreamWorld}{\textcolor{mypink}{\textbf{Github}}} で公開される。
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation [61.98887854225878]
私たちは、世界対応のビデオ生成のための統合フレームワークUnityVideoを紹介します。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)文脈内学習者によるモダリティ・スイッチャーの2つのコアコンポーネントを特徴とする。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
論文 参考訳(メタデータ) (2025-12-08T18:59:01Z) - IC-World: In-Context Generation for Shared World Modeling [61.69655562995357]
ビデオベースの世界モデルは、多様でダイナミックな視覚環境を合成する能力に注目が集まっている。
本稿では,モデルが入力画像の集合から複数のビデオを生成し,それぞれが異なるカメラポーズで同じ世界を表す共有世界モデリングに焦点を当てる。
入力画像の並列生成を可能にする新しい生成フレームワークであるIC-Worldを提案する。
論文 参考訳(メタデータ) (2025-12-01T16:52:02Z) - Any4D: Open-Prompt 4D Generation from Natural Language and Images [7.541641344819342]
bfPrimitive Embodied World Models (PEWM) を提案する。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-11-24T04:17:26Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation [38.196609962452655]
textbfWorldGenBenchは、T2Iモデルの世界の知識基盤と暗黙の推論能力を評価するために設計されたベンチマークである。
提案するtextbfKnowledge Checklist Scoreは,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化メトリクスである。
本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
論文 参考訳(メタデータ) (2025-05-02T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。