論文の概要: The Trinity of Consistency as a Defining Principle for General World Models
- arxiv url: http://arxiv.org/abs/2602.23152v1
- Date: Thu, 26 Feb 2026 16:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.766808
- Title: The Trinity of Consistency as a Defining Principle for General World Models
- Title(参考訳): 一般世界モデルにおける整合性の定義原理としての整合性のトライニティ
- Authors: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan,
- Abstract要約: 一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
- 参考スコア(独自算出の注目度): 106.16462830681452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.
- Abstract(参考訳): 客観的物理法則を学習し、シミュレートし、推論できる世界モデルの構築は、人工知能の追求における基礎的な課題である。
Soraのようなビデオ生成モデルに代表される最近の進歩は、物理力学を近似するデータ駆動スケーリング法則の可能性を実証している一方、新たな統一マルチモーダルモデル(UMM)は、知覚、言語、推論を統合する上で有望なアーキテクチャパラダイムを提供する。
これらの進歩にもかかわらず、この分野には、一般世界モデルに必要な本質的な性質を定義する原則的な理論的な枠組みがまだ欠けている。
本稿では,意味的インターフェースとしてのモーダル整合性,幾何学的基盤としての空間整合性,因果的エンジンとしての時間整合性について,世界モデルを構築することを提案する。
この三部レンズを通して、多モード学習の進化を体系的にレビューし、疎結合な特殊モジュールから内部世界シミュレータの相乗的出現を可能にする統一アーキテクチャへの軌道を明らかにする。
この概念的枠組みを補完するために,マルチフレーム推論と生成シナリオを中心としたベンチマークであるCoW-Benchを紹介する。
CoW-Benchは、統一評価プロトコルの下で、ビデオ生成モデルとUMMの両方を評価する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
関連論文リスト
- UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks [43.59401259468559]
我々は、ロバストな世界モデルは、能力の緩やかな集まりではなく、相互作用、知覚、象徴的推論、空間的表現を一体的に組み込んだ規範的な枠組みであるべきだと主張する。
この研究は、未来の研究を世界のより一般的で堅牢で原則化されたモデルへと導くことを目的としている。
論文 参考訳(メタデータ) (2026-02-02T04:42:44Z) - A Mechanistic View on Video Generation as World Models: State and Dynamics [43.951972667861575]
本研究は、状態構築とダイナミクスモデリングという2つの柱を中心とした新しい分類法を提案する。
これらの課題に対処することで、視野は視覚的に可視なビデオから、堅牢で汎用的な世界シミュレータの構築へと進化することができる。
論文 参考訳(メタデータ) (2026-01-22T19:00:18Z) - Natural Building Blocks for Structured World Models: Theory, Evidence, and Scaling [42.78591555984395]
本研究では,構造化世界モデルの自然構築ブロックを規定するフレームワークを提案する。
本研究では,隠れマルコフモデル (HMM) と線形切替力学系 (sLDS) を離散的・連続的モデリングのための自然な構築ブロックとして検討する。
このモジュラーアプローチは、受動的モデリング(生成、予測)と、同じアーキテクチャ内のアクティブコントロール(計画、意思決定)の両方をサポートする。
論文 参考訳(メタデータ) (2025-11-03T22:02:04Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - World Models Should Prioritize the Unification of Physical and Social Dynamics [57.91940497010114]
本稿では、物理的・社会的予測能力の体系的・双方向統合が、世界モデル開発における次の重要なフロンティアであると主張している。
包括的世界モデルは、客観的物理法則を主観的、進化的、文脈に依存した社会力学の性質と一体的に統合する必要があると我々は主張する。
論文 参考訳(メタデータ) (2025-10-24T07:42:37Z) - Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。
我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文 参考訳(メタデータ) (2025-05-04T11:57:02Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
本フレームワークは,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。