論文の概要: World-in-World: World Models in a Closed-Loop World
- arxiv url: http://arxiv.org/abs/2510.18135v1
- Date: Mon, 20 Oct 2025 22:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.648811
- Title: World-in-World: World Models in a Closed-Loop World
- Title(参考訳): World-in-World: クローズドな世界における世界モデル
- Authors: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen,
- Abstract要約: 我々は,実エージェントと環境の相互作用を反映したクローズドループの世界において,世界モデルをベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介した。
多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に重点を置く4つのクローズドループ環境をキュレートする。
1)視覚的品質だけではタスクの成功は保証されないが、制御可能性の方が重要であること、2) 行動観測データによる後トレーニングのスケーリングは、事前訓練されたビデオジェネレータをアップグレードするよりも効果的であること、3) 推論時計算の割り当てにより、WMsは大幅にクローズドな改善が可能であること、の3つのサプライズを明らかにした。
- 参考スコア(独自算出の注目度): 123.85805788728128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative world models (WMs) can now simulate worlds with striking visual realism, which naturally raises the question of whether they can endow embodied agents with predictive perception for decision making. Progress on this question has been limited by fragmented evaluation: most existing benchmarks adopt open-loop protocols that emphasize visual quality in isolation, leaving the core issue of embodied utility unresolved, i.e., do WMs actually help agents succeed at embodied tasks? To address this gap, we introduce World-in-World, the first open platform that benchmarks WMs in a closed-loop world that mirrors real agent-environment interactions. World-in-World provides a unified online planning strategy and a standardized action API, enabling heterogeneous WMs for decision making. We curate four closed-loop environments that rigorously evaluate diverse WMs, prioritize task success as the primary metric, and move beyond the common focus on visual quality; we also present the first data scaling law for world models in embodied settings. Our study uncovers three surprises: (1) visual quality alone does not guarantee task success, controllability matters more; (2) scaling post-training with action-observation data is more effective than upgrading the pretrained video generators; and (3) allocating more inference-time compute allows WMs to substantially improve closed-loop performance.
- Abstract(参考訳): 生成的世界モデル(英語版) (WMs) は、目覚ましい視覚的リアリズムで世界をシミュレートできるようになり、それらが決定のための予測的知覚を持つエンボディされたエージェントを支持できるかどうかという疑問が自然に浮き彫りになる。
既存のほとんどのベンチマークでは、視覚的品質を強調するオープンループプロトコルを採用しており、エンボディドユーティリティーの中核的な問題は解決されず、つまりWMはエージェントが実際にエンボディされたタスクを成功させるのに役立つのか?
このギャップに対処するため、我々はWMをクローズドループでベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介します。
World-in-Worldは統合されたオンライン計画戦略と標準化されたアクションAPIを提供し、意思決定に異質なWMを可能にする。
我々は、多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に共通の焦点を移す4つのクローズドループ環境をキュレートする。
本研究では,(1)視覚的品質だけではタスクの成功が保証されないこと,(2)行動観測データによる後学習のスケーリングは,事前学習したビデオジェネレータのアップグレードよりも効果的であること,(3)より推論時間の高い計算により,WMはクローズドループ性能を大幅に向上させることができること,の3つのサプライズを明らかにする。
関連論文リスト
- Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making [32.050134958163184]
ファンデーションモデル(FM)とワールドモデル(WM)は、異なるレベルでタスクの一般化において補完的な強みを提供する。
本稿では、FMに埋め込まれた一般化可能な知識とWMの動的モデリング機能を統合するフレームワークであるFOUNDERを提案する。
我々は、WM状態空間におけるFM表現を基底としたマッピング関数を学習し、外部観測から世界シミュレータにおけるエージェントの物理状態を効果的に推定する。
論文 参考訳(メタデータ) (2025-07-15T21:49:49Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。