論文の概要: From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models
- arxiv url: http://arxiv.org/abs/2601.15533v1
- Date: Wed, 21 Jan 2026 23:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.447654
- Title: From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models
- Title(参考訳): 生成エンジンから動作可能なシミュレータへ:世界モデルにおける物理グラウンドの意義
- Authors: Zhikang Chen, Tingting Zhu,
- Abstract要約: 世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。
現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
- 参考スコア(独自算出の注目度): 4.52033729546524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A world model is an AI system that simulates how an environment evolves under actions, enabling planning through imagined futures rather than reactive perception. Current world models, however, suffer from visual conflation: the mistaken assumption that high-fidelity video generation implies an understanding of physical and causal dynamics. We show that while modern models excel at predicting pixels, they frequently violate invariant constraints, fail under intervention, and break down in safety-critical decision-making. This survey argues that visual realism is an unreliable proxy for world understanding. Instead, effective world models must encode causal structure, respect domain-specific constraints, and remain stable over long horizons. We propose a reframing of world models as actionable simulators rather than visual engines, emphasizing structured 4D interfaces, constraint-aware dynamics, and closed-loop evaluation. Using medical decision-making as an epistemic stress test, where trial-and-error is impossible and errors are irreversible, we demonstrate that a world model's value is determined not by how realistic its rollouts appear, but by its ability to support counterfactual reasoning, intervention planning, and robust long-horizon foresight.
- Abstract(参考訳): 世界モデルは、環境が行動の下でどのように進化するかをシミュレートするAIシステムであり、反応的な知覚ではなく、想像された未来を通じた計画を可能にする。
しかし、現在の世界モデルは視覚的衝突に悩まされており、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を示唆しているという誤った仮定がある。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
この調査は、ビジュアルリアリズムが世界理解の信頼できない代案であると主張している。
代わりに、効果的な世界モデルは因果構造を符号化し、ドメイン固有の制約を尊重し、長い地平線上で安定に保たなければならない。
視覚エンジンではなく,動作可能なシミュレータとして世界モデルのリフレーミングを提案し,構造化された4Dインタフェース,制約認識力学,クローズドループ評価を重視した。
医療的意思決定を疫学的なストレステストとして用いて、試行錯誤は不可能であり、エラーは不可逆であり、世界モデルの価値は、そのロールアウトがいかに現実的に現れるかではなく、反現実的推論、介入計画、堅牢な長期監視をサポートする能力によって決定されることを示す。
関連論文リスト
- Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model [12.257547810949482]
Embodied Tree of Thoughts (EToT)は、Real2Sim2Real計画フレームワークである。
EToTは2つの相乗的メカニズムを通じてツリー探索が拡張されたときの操作計画の定式化を行う。
物理シミュレータで高レベル推論を基礎にすることにより、生成した計画が剛体力学や衝突の制約に固執することを保証する。
論文 参考訳(メタデータ) (2025-12-09T02:36:26Z) - PAN: A World Model for General, Interactable, and Long-Horizon World Simulation [49.805071498152536]
PANは、汎用的で対話性があり、長い水平世界モデルである。
歴史と自然言語のアクションを前提とした高品質なビデオシミュレーションにより、将来の世界の状態を予測します。
実験により, PANは行動条件付き世界シミュレーション, 長期予測, シミュレーション推論において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-12T07:20:35Z) - Clone Deterministic 3D Worlds with Geometrically-Regularized World Models [16.494281967592745]
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:56:43Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Causal World Models by Unsupervised Deconfounding of Physical Dynamics [20.447000858907646]
世界の精神モデルで内部を想像する能力は、人間の認知にとって極めて重要である。
本稿では,相互関係の教師なしモデリングを可能にするCausal World Models(CWMs)を提案する。
強化学習タスクの複雑性サンプルの削減と、反実物的推論の改善を示します。
論文 参考訳(メタデータ) (2020-12-28T13:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。