論文の概要: A Comprehensive Survey on World Models for Embodied AI
- arxiv url: http://arxiv.org/abs/2510.16732v1
- Date: Sun, 19 Oct 2025 07:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.118285
- Title: A Comprehensive Survey on World Models for Embodied AI
- Title(参考訳): 体操AIの世界モデルに関する包括的調査
- Authors: Xinqing Li, Xin He, Le Zhang, Yun Liu,
- Abstract要約: エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
- 参考スコア(独自算出の注目度): 14.457261562275121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI requires agents that perceive, act, and anticipate how actions reshape future world states. World models serve as internal simulators that capture environment dynamics, enabling forward and counterfactual rollouts to support perception, prediction, and decision making. This survey presents a unified framework for world models in embodied AI. Specifically, we formalize the problem setting and learning objectives, and propose a three-axis taxonomy encompassing: (1) Functionality, Decision-Coupled vs. General-Purpose; (2) Temporal Modeling, Sequential Simulation and Inference vs. Global Difference Prediction; (3) Spatial Representation, Global Latent Vector, Token Feature Sequence, Spatial Latent Grid, and Decomposed Rendering Representation. We systematize data resources and metrics across robotics, autonomous driving, and general video settings, covering pixel prediction quality, state-level understanding, and task performance. Furthermore, we offer a quantitative comparison of state-of-the-art models and distill key open challenges, including the scarcity of unified datasets and the need for evaluation metrics that assess physical consistency over pixel fidelity, the trade-off between model performance and the computational efficiency required for real-time control, and the core modeling difficulty of achieving long-horizon temporal consistency while mitigating error accumulation. Finally, we maintain a curated bibliography at https://github.com/Li-Zn-H/AwesomeWorldModels.
- Abstract(参考訳): エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
世界モデルは、環境力学を捉える内部シミュレータとして機能し、前方および対実的なロールアウトを可能にし、知覚、予測、意思決定をサポートする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
具体的には,問題設定と学習の目的を定式化し,(1)機能,決定結合対一般目的,(2)時間モデリング,シーケンスシミュレーションと推論対グローバル差分予測,(3)空間表現,グローバル潜時ベクトル,トークン特徴系列,空間潜時格子,および分解レンダリング表現を含む3軸分類法を提案する。
私たちは、ロボット工学、自律運転、一般的なビデオ設定にまたがるデータリソースとメトリクスを体系化し、ピクセル予測の品質、状態レベルの理解、タスクパフォーマンスをカバーしています。
さらに,統合データセットの不足,画素の忠実度に対する物理的整合性を評価する評価指標の必要性,モデル性能とリアルタイム制御に必要な計算効率のトレードオフ,エラー蓄積を緩和しながら長期時間的整合性を達成するためのコアモデリングの難しさなど,最先端モデルの定量的比較と重要なオープン課題の抽出を行う。
最後に、私たちはhttps://github.com/Li-Zn-H/AwesomeWorldModels.comでキュレートされた書誌を維持します。
関連論文リスト
- Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。
本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。
本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文 参考訳(メタデータ) (2025-03-08T11:17:37Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - Visual Explanations with Attributions and Counterfactuals on Time Series
Classification [15.51135925107216]
グローバルな説明とローカルな説明のシームレスな遷移をサポートするビジュアル分析ワークフローを提案する。
グローバルな概要を生成するために、データに局所帰属法を適用し、データセット全体の説明を作成する。
さらに、モデル決定と潜在的なデータエラーを検査するために、What-if分析は仮説生成と検証を容易にする。
論文 参考訳(メタデータ) (2023-07-14T10:01:30Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。