論文の概要: The Trinity of Consistency as a Defining Principle for General World Models
- arxiv url: http://arxiv.org/abs/2602.23152v1
- Date: Thu, 26 Feb 2026 16:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.766808
- Title: The Trinity of Consistency as a Defining Principle for General World Models
- Title(参考訳): 一般世界モデルにおける整合性の定義原理としての整合性のトライニティ
- Authors: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan,
- Abstract要約: 一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
- 参考スコア(独自算出の注目度): 106.16462830681452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.
- Abstract(参考訳): 客観的物理法則を学習し、シミュレートし、推論できる世界モデルの構築は、人工知能の追求における基礎的な課題である。
Soraのようなビデオ生成モデルに代表される最近の進歩は、物理力学を近似するデータ駆動スケーリング法則の可能性を実証している一方、新たな統一マルチモーダルモデル(UMM)は、知覚、言語、推論を統合する上で有望なアーキテクチャパラダイムを提供する。
これらの進歩にもかかわらず、この分野には、一般世界モデルに必要な本質的な性質を定義する原則的な理論的な枠組みがまだ欠けている。
本稿では,意味的インターフェースとしてのモーダル整合性,幾何学的基盤としての空間整合性,因果的エンジンとしての時間整合性について,世界モデルを構築することを提案する。
この三部レンズを通して、多モード学習の進化を体系的にレビューし、疎結合な特殊モジュールから内部世界シミュレータの相乗的出現を可能にする統一アーキテクチャへの軌道を明らかにする。
この概念的枠組みを補完するために,マルチフレーム推論と生成シナリオを中心としたベンチマークであるCoW-Benchを紹介する。
CoW-Benchは、統一評価プロトコルの下で、ビデオ生成モデルとUMMの両方を評価する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
関連論文リスト
- Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks [43.59401259468559]
我々は、ロバストな世界モデルは、能力の緩やかな集まりではなく、相互作用、知覚、象徴的推論、空間的表現を一体的に組み込んだ規範的な枠組みであるべきだと主張する。
この研究は、未来の研究を世界のより一般的で堅牢で原則化されたモデルへと導くことを目的としている。
論文 参考訳(メタデータ) (2026-02-02T04:42:44Z) - A Mechanistic View on Video Generation as World Models: State and Dynamics [43.951972667861575]
本研究は、状態構築とダイナミクスモデリングという2つの柱を中心とした新しい分類法を提案する。
これらの課題に対処することで、視野は視覚的に可視なビデオから、堅牢で汎用的な世界シミュレータの構築へと進化することができる。
論文 参考訳(メタデータ) (2026-01-22T19:00:18Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - World Models Should Prioritize the Unification of Physical and Social Dynamics [57.91940497010114]
本稿では、物理的・社会的予測能力の体系的・双方向統合が、世界モデル開発における次の重要なフロンティアであると主張している。
包括的世界モデルは、客観的物理法則を主観的、進化的、文脈に依存した社会力学の性質と一体的に統合する必要があると我々は主張する。
論文 参考訳(メタデータ) (2025-10-24T07:42:37Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
本フレームワークは,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。