論文の概要: Current Agents Fail to Leverage World Model as Tool for Foresight
- arxiv url: http://arxiv.org/abs/2601.03905v1
- Date: Wed, 07 Jan 2026 13:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.199097
- Title: Current Agents Fail to Leverage World Model as Tool for Foresight
- Title(参考訳): 世界のモデル、監視ツールとして活用できない現状のエージェント
- Authors: Cheng Qian, Emre Can Acikgoz, Bingxuan Li, Xiusi Chen, Yuji Zhang, Bingxiang He, Qinyu Luo, Dilek Hakkani-Tür, Gokhan Tur, Yunzhu Li, Heng Ji, Heng Ji,
- Abstract要約: エージェントは、行動する前に結果を予測するためにそれらを使用できます。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
- 参考スコア(独自算出の注目度): 86.88512682902899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents built on vision-language models increasingly face tasks that demand anticipating future states rather than relying on short-horizon reasoning. Generative world models offer a promising remedy: agents could use them as external simulators to foresee outcomes before acting. This paper empirically examines whether current agents can leverage such world models as tools to enhance their cognition. Across diverse agentic and visual question answering tasks, we observe that some agents rarely invoke simulation (fewer than 1%), frequently misuse predicted rollouts (approximately 15%), and often exhibit inconsistent or even degraded performance (up to 5%) when simulation is available or enforced. Attribution analysis further indicates that the primary bottleneck lies in the agents' capacity to decide when to simulate, how to interpret predicted outcomes, and how to integrate foresight into downstream reasoning. These findings underscore the need for mechanisms that foster calibrated, strategic interaction with world models, paving the way toward more reliable anticipatory cognition in future agent systems.
- Abstract(参考訳): 視覚言語モデルに基づくエージェントは、短期水平推論に頼るのではなく、将来の状態を予測するタスクに直面している。
エージェントはエージェントを外部シミュレータとして使用して、アクション前に結果を予測できる。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
エージェントや視覚的質問応答タスクの多種多様さから,シミュレーションをほとんど実施しないエージェント(1%未満)や,予測ロールアウトを頻繁に誤用するエージェント(約15%)があり,シミュレーションが利用可能あるいは実施されている場合,不整合性あるいは劣化したパフォーマンス(最大5%)を示すエージェントも少なくない。
属性分析は、エージェントがいつシミュレートするか、予測された結果をどのように解釈するか、下流の推論にフォレストを統合する方法について決定する能力に、大きなボトルネックがあることを示している。
これらの知見は、キャリブレーションされた、世界モデルとの戦略的相互作用を促進するメカニズムの必要性を浮き彫りにし、将来のエージェントシステムにおけるより信頼性の高い予測認知への道を開いた。
関連論文リスト
- Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning [57.23345786304694]
予測学習のための枠組みと自己予測を中心とした組込みエージェントを導入する。
マルチエージェント設定では、エージェントが類似したアルゴリズムを実行している他のエージェントについて推論することができる。
我々は、AIXIの理論を拡張し、Solomonoffから始まる普遍的なインテリジェントな埋め込みエージェントについて研究する。
論文 参考訳(メタデータ) (2025-11-27T08:46:48Z) - The Safety Challenge of World Models for Embodied AI Agents: A Review [26.221064333727185]
我々は、自律運転とロボット工学の分野における世界モデルに関する文献レビューを行う。
我々のレビューは経験的分析によって補完され、最先端のモデルから予測を収集し、検証する。
論文 参考訳(メタデータ) (2025-10-07T12:35:09Z) - EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds [119.02266432167085]
EgoAgentは単一変換器内での表現、予測、動作を同時に学習する統合エージェントモデルである。
EgoAgentは、タスクをインターリーブされた状態とアクションのシーケンスとして定式化することで、これらの能力間の因果的および時間的依存関係を明示的にモデル化する。
EgoAgentの画像分類,エゴセントリックな将来の状態予測,3次元人間の動作予測といった代表的課題に対する総合的な評価は,本手法の優位性を示している。
論文 参考訳(メタデータ) (2025-02-09T11:28:57Z) - Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。