論文の概要: Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents
- arxiv url: http://arxiv.org/abs/2506.00320v1
- Date: Sat, 31 May 2025 00:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.772725
- Title: Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents
- Title(参考訳): Dyna-Think:AIエージェントにおける推論、アクティング、および世界モデルシミュレーションのシンセサイザー化
- Authors: Xiao Yu, Baolin Peng, Ruize Xu, Michel Galley, Hao Cheng, Suman Nath, Jianfeng Gao, Zhou Yu,
- Abstract要約: 本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。
DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。
DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
- 参考スコア(独自算出の注目度): 76.86311820866153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in reasoning with large language models (LLMs), such as DeepSeek-R1, demonstrates impressive capabilities in domains like mathematics and coding, by exhibiting complex cognitive behaviors such as verification, goal decomposition, and self-reflection. However, it is unclear what behavior is effective and what behavior is missing for long-horizon AI agents tasks. In this work, we propose Dyna-Think, a thinking framework that integrates planning with an internal world model with reasoning and acting to enhance AI agent performance. To enable Dyna-Think, we propose Dyna-Think Imitation Learning (DIT) and Dyna-Think Dyna Training (DDT). To initialize a policy with Dyna-Think, DIT reconstructs the thinking process of R1 to focus on performing world model simulation relevant to the proposed (and planned) action, and trains the policy using this reconstructed data. To enhance Dyna-Think, DDT uses a two-stage training process to first improve the agent's world modeling ability via objectives such as state prediction or critique generation, and then improve the agent's action via policy training. We evaluate our methods on OSWorld, and demonstrate that Dyna-Think improves the agent's in-domain and out-of-domain performance, achieving similar best-of-n performance compared to R1 while generating 2x less tokens on average. Our extensive empirical studies reveal that 1) using critique generation for world model training is effective to improve policy performance; and 2) AI agents with better performance correlate with better world modeling abilities. We believe our results suggest a promising research direction to integrate world model simulation into AI agents to enhance their reasoning, planning, and acting capabilities.
- Abstract(参考訳): DeepSeek-R1のような大規模言語モデル(LLM)を用いた推論の最近の進歩は、検証、ゴール分解、自己回帰のような複雑な認知行動を示すことによって、数学やコーディングのような領域における印象的な能力を示している。
しかし、長期的なAIエージェントタスクにおいて、どのような行動が効果的で、どのような行動が欠落しているかは不明である。
本研究では,AIエージェントの性能向上を目的とした推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークであるDyna-Thinkを提案する。
そこで我々はDyna-Think Imitation Learning (DIT)とDyna-Think Dyna Training (DDT)を提案する。
ダイナシンクでポリシーを初期化するために、DITはR1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。
Dyna-Thinkを強化するために、DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を向上し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
提案手法をOSWorld上で評価し,Dyna-Thinkがエージェントのドメイン内性能とドメイン外性能を改善し,R1と同等のベスト・オブ・n性能を実現し,平均2倍少ないトークンを生成することを示した。
我々の広範な実証研究が明らかにした
1)世界モデルトレーニングにおける批判生成の利用は、政策性能の向上に有効である。
2)より優れた性能を持つAIエージェントは、より良い世界モデリング能力と相関する。
我々の結果は、世界モデルシミュレーションをAIエージェントに統合し、推論、計画、行動能力を高めるための有望な研究方向を示唆している。
関連論文リスト
- World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。
線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。
我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-23T18:50:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - On Realization of Intelligent Decision-Making in the Real World: A
Foundation Decision Model Perspective [54.38373782121503]
FDM(Foundation Decision Model)は、様々な意思決定タスクをシーケンスデコーディングタスクとして定式化することで開発することができる。
本稿では、FDMの実装であるDigitalBrain(DB1)を13億のパラメータで実証し、870のタスクで人間レベルのパフォーマンスを達成するケーススタディを提案する。
論文 参考訳(メタデータ) (2022-12-24T06:16:45Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees [0.9137554315375919]
本稿ではDyna-Tという新しいアルゴリズムについて予備検討する。
強化学習(RL)では、計画エージェントは環境をモデルとして表現する。
より良いモデルを学ぶために、あるいは価値関数とポリシーを直接改善するために、経験を使うことができる。
論文 参考訳(メタデータ) (2022-01-12T15:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。