論文の概要: Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
- arxiv url: http://arxiv.org/abs/2510.09577v1
- Date: Fri, 10 Oct 2025 17:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.500845
- Title: Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
- Title(参考訳): Dyna-Mind: より良いAIエージェントのための経験からシミュレートする学習
- Authors: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao,
- Abstract要約: 私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
- 参考スコア(独自算出の注目度): 62.21219817256246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models have recently shown remarkable progress in domains such as math and coding. However, their expert-level abilities in math and coding contrast sharply with their performance in long-horizon, interactive tasks such as web navigation and computer/phone-use. Inspired by literature on human cognition, we argue that current AI agents need ''vicarious trial and error'' - the capacity to mentally simulate alternative futures before acting - in order to enhance their understanding and performance in complex interactive environments. We introduce Dyna-Mind, a two-stage training framework that explicitly teaches (V)LM agents to integrate such simulation into their reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which trains the agent to generate structured reasoning traces from expanded search trees built from real experience gathered through environment interactions. ReSim thus grounds the agent's reasoning in faithful world dynamics and equips it with the ability to anticipate future states in its reasoning. In stage 2, we propose Dyna-GRPO, an online reinforcement learning method to further strengthen the agent's simulation and decision-making ability by using both outcome rewards and intermediate states as feedback from real rollouts. Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome and interaction-level signals to learn better policies for long-horizon, planning-intensive tasks. Together, these results highlight the central role of simulation in enabling AI agents to reason, plan, and act more effectively in the ever more challenging environments.
- Abstract(参考訳): 推論モデルは、最近数学やコーディングのような領域で顕著な進歩を見せている。
しかし、数学やコーディングにおける専門家レベルの能力は、ウェブナビゲーションやコンピュータ/電話利用といった対話的タスクの長期的パフォーマンスとは対照的である。
人間の認知に関する文献に触発されて、我々は、複雑な対話的環境における彼らの理解とパフォーマンスを高めるために、現在のAIエージェントは、行動する前に別の未来を精神的にシミュレートする能力である「悪質な試行錯誤」を必要としていると論じる。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
ステージ1では、環境相互作用を通じて収集された実体験から構築された拡張探索木から、エージェントが構造化された推論トレースを生成するよう訓練するRessoning with Simulations(ReSim)を紹介した。
したがって、ReSimはエージェントの推論を忠実な世界力学に置き、その推論において将来の状態を予測できる能力を備える。
段階2では、実際のロールアウトからのフィードバックとして結果報酬と中間状態の両方を用いることで、エージェントのシミュレーションと意思決定能力をさらに強化するオンライン強化学習手法であるDyna-GRPOを提案する。
2つの総合ベンチマーク(SokobanとALFWorld)と1つの現実的ベンチマーク(AndroidWorld)の実験では、(1)ReSimはAIエージェントにシミュレーション能力を効果的に注入し、(2)Dyna-GRPOは結果と相互作用レベル信号を活用して、長期的計画集約的なタスクのためのより良いポリシーを学ぶ。
これらの結果は、AIエージェントがより困難な環境でより効果的に推論、計画、行動できるようにすることにおけるシミュレーションの中枢的な役割を強調している。
関連論文リスト
- Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents [57.35214204211501]
本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。
DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。
DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
論文 参考訳(メタデータ) (2025-05-31T00:10:18Z) - YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.35333054932747]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。
ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。
我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文 参考訳(メタデータ) (2025-05-12T14:05:17Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - RoboTHOR: An Open Simulation-to-Real Embodied AI Platform [56.50243383294621]
インタラクティブで具体化された視覚AIの研究を民主化するためにRoboTHORを導入する。
シミュレーションで訓練されたモデルの性能は,シミュレーションと慎重に構築された物理アナログの両方で試験される場合,大きな差があることが示される。
論文 参考訳(メタデータ) (2020-04-14T20:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。