論文の概要: Teaching AI Agents to Search with Reflective-MCTS and Exploratory Learning
- arxiv url: http://arxiv.org/abs/2410.02052v2
- Date: Fri, 18 Oct 2024 03:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:15:24.936601
- Title: Teaching AI Agents to Search with Reflective-MCTS and Exploratory Learning
- Title(参考訳): 反射型MCTSと探索学習を用いたAIエージェントの探索
- Authors: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu,
- Abstract要約: エージェントアプリケーションのためのo1のようなモデルを構築するために,リフレクティブモンテカルロ木探索(R-MCTS)と探索学習(Exploratory Learning)を提案する。
R-MCTSは、AIエージェントがその場で決定空間を探索する能力を高めるために設計された、新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
- 参考スコア(独自算出の注目度): 78.42927884000673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we present Reflective Monte Carlo Tree Search (R-MCTS) and Exploratory Learning to build o1-like models for agentic applications. We first introduce R-MCTS, a novel test-time algorithm designed to enhance the ability of AI agents to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Next, we introduce Exploratory Learning, a novel learning strategy to teach agents to search at inference time without relying on any external search algorithms. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the experience gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. After Exploratory Learning, GPT-4o 1) demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success, and 2) matches 87% of R-MCTS's performance while using significantly less compute. Notably, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.
- Abstract(参考訳): 自律エージェントは、複雑な多段階意思決定タスクを自動化する大きな可能性を証明している。
しかし、GPT-4oのような最先端のビジョン言語モデル(VLM)でさえ、特に複雑なWeb環境や長期計画タスクにおいて、人間レベルの性能に欠ける。
これらの制約に対処するため,リフレクティブモンテカルロ木探索 (R-MCTS) と探索学習 (Exploratory Learning) を提案し,エージェントアプリケーションのためのo1ライクなモデルを構築する。
R-MCTSはAIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
R-MCTSは従来のMCTSを拡張します
1) 比較反射を取り入れることで、エージェントは過去の相互作用から学び、探索効率を動的に改善することができる。
2) 信頼性のある状態評価を行うためにマルチエージェントの議論を用いる。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
挑戦的な VisualWebArena ベンチマークでは,GPT-4o ベースの R-MCTS エージェントが,従来の最先端技術と比較して,さまざまなタスクに対して 6% から 30% の相対的な改善を実現している。
さらに,テストタイム検索から得られる経験を,微調整によりGPT-4oに効果的に戻すことができることを示す。
GPT-4oの探索学習
1)現在の状態が成功に繋がらないことを検出すると、環境を探索し、状態を評価し、実行可能なものにバックトラックする能力を示す。
2) R-MCTSの性能は87%に相当し, 計算能力は大幅に低下した。
特に、我々の研究は、R-MCTSによるデータ収集とテスト時間の両方のトレーニングにおける計算スケーリング特性を実証しています。
これらの結果は,試験時間探索と自己学習によるエージェントアプリケーションに対するVLMの推論と計画能力を高めるための有望な研究方向を示唆している。
関連論文リスト
- ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Reinforcement learning informed evolutionary search for autonomous
systems testing [15.210312666486029]
本稿では,ドメイン知識から得られるサロゲート報酬を用いて学習した強化学習(RL)エージェントを用いて進化的探索(ES)を強化することを提案する。
RIGAAとして知られる我々の手法では、まずRLエージェントを訓練し、問題の有用な制約を学習し、それを用いて探索アルゴリズムの初期集団の特定の部分を生成する。
RIGAAは自律性アリロボットの迷路生成と自律車線維持支援システムの道路トポロジー生成の2つのケーススタディで評価した。
論文 参考訳(メタデータ) (2023-08-24T13:11:07Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。