論文の概要: World Reasoning Arena
- arxiv url: http://arxiv.org/abs/2603.25887v1
- Date: Thu, 26 Mar 2026 20:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.264248
- Title: World Reasoning Arena
- Title(参考訳): World Reasoning Arena
- Authors: PAN Team, Qiyue Gao, Kun Zhou, Jiannan Xiang, Zihan Liu, Dequan Yang, Junrong Chen, Arif Ahmad, Cong Zeng, Ganesh Bannur, Xinqi Huang, Zheqi Liu, Yi Gu, Yichi Yang, Guangyi Liu, Zhiting Hu, Zhengzhong Liu, Eric Xing,
- Abstract要約: WR-Arenaは、次世代シミュレーションの3つの基本的な次元に沿って世界モデルを評価するためのベンチマークである。
タスク分類を構築し、これらの能力を調査するために設計された多様なデータセットをキュレートします。
その結果、現在のモデルと人間レベルの仮説的推論との間には大きなギャップがあることがわかった。
- 参考スコア(独自算出の注目度): 36.28720055069025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models (WMs) are intended to serve as internal simulators of the real world that enable agents to understand, anticipate, and act upon complex environments. Existing WM benchmarks remain narrowly focused on next-state prediction and visual fidelity, overlooking the richer simulation capabilities required for intelligent behavior. To address this gap, we introduce WR-Arena, a comprehensive benchmark for evaluating WMs along three fundamental dimensions of next world simulation: (i) Action Simulation Fidelity, the ability to interpret and follow semantically meaningful, multi-step instructions and generate diverse counterfactual rollouts; (ii) Long-horizon Forecast, the ability to sustain accurate, coherent, and physically plausible simulations across extended interactions; and (iii) Simulative Reasoning and Planning, the ability to support goal-directed reasoning by simulating, comparing, and selecting among alternative futures in both structured and open-ended environments. We build a task taxonomy and curate diverse datasets designed to probe these capabilities, moving beyond single-turn and perceptual evaluations. Through extensive experiments with state-of-the-art WMs, our results expose a substantial gap between current models and human-level hypothetical reasoning, and establish WR-Arena as both a diagnostic tool and a guideline for advancing next-generation world models capable of robust understanding, forecasting, and purposeful action. The code is available at https://github.com/MBZUAI-IFM/WR-Arena.
- Abstract(参考訳): 世界モデル(WM)は、エージェントが複雑な環境を理解し、予測し、行動することを可能にする現実世界の内部シミュレータとして機能することを目的としている。
既存のWMベンチマークは、インテリジェントな振る舞いに必要なよりリッチなシミュレーション能力を見越して、次世代の予測と視覚的忠実さに細心の注意を払っている。
このギャップに対処するために、次世代シミュレーションの3つの基本的な側面に沿ってWMを評価するための総合的なベンチマークであるWR-Arenaを紹介する。
一 動作シミュレーションの忠実さ、意味論的に意味のある多段階の指示を解釈し、従うことができ、かつ、多様な反事実的な展開を発生させることができること。
(二)長期予測、広範囲にわたる正確で一貫性があり、物理的に妥当なシミュレーションを持続する能力、及び
三 シミュレーション推論及び計画、構造化された環境とオープンな環境の両方において、他の未来をシミュレートし、比較し、選択することにより、目標指向の推論を支援する能力。
タスク分類を構築し、これらの能力を調査するために設計された多様なデータセットをキュレートします。
現状のWMを用いた広範な実験を通じて、現在のモデルと人間レベルの仮説的推論との間に大きなギャップを生じさせ、WR-Arenaを診断ツールと次世代のモデルを進めるためのガイドラインとして確立し、堅牢な理解、予測、目的のある行動を可能にする。
コードはhttps://github.com/MBZUAI-IFM/WR-Arenaで公開されている。
関連論文リスト
- Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models [13.90532093512575]
エージェント学習のための統合フレームワークであるImagine-then-Plan(textttITP)を提案する。
最終目標とタスクの進捗をトレードオフすることで、適応的な新しいルックアヘッド機構を導入する。
実験の結果, TexttITP は競争ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-13T19:49:58Z) - SimScale: Learning to Drive via Real-World Simulation at Scale [45.08991279559151]
本稿では,既存の運転ログ上に巨大な未確認状態を合成可能な,新規でスケーラブルなシミュレーションフレームワークを提案する。
我々のパイプラインは、高度なニューラルレンダリングとリアクティブ環境を利用して、高忠実度マルチビュー観測を生成する。
我々は、これらの新しいシミュレーション状態に対する擬似経験的軌跡生成機構を開発し、行動監視を行う。
論文 参考訳(メタデータ) (2025-11-28T17:17:38Z) - FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI [24.545163508739943]
FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。
我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。
再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
論文 参考訳(メタデータ) (2025-11-17T15:58:46Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration [77.8436947454471]
シンボリック・ワールド・モデリングは、実行可能プログラムとして環境の遷移力学を推論し、表現する必要がある。
OneLifeは、条件付きアクティベートされたプログラム法則を通じて世界ダイナミクスをモデル化するフレームワークである。
OneLifeは、最小限の、ガイドなしのインタラクションから、キー環境のダイナミクスをうまく学べる。
論文 参考訳(メタデータ) (2025-10-14T02:49:32Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。