論文の概要: Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
- arxiv url: http://arxiv.org/abs/2410.02052v1
- Date: Fri, 18 Oct 2024 03:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:15:24.939453
- Title: Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
- Title(参考訳): 反射木探索と自己学習による自律型AIエージェントの改善
- Authors: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu,
- Abstract要約: Reflective Monte Carlo Tree Search (R-MCTS)は、AIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムである。
R-MCTSは1)従来のMCTSを拡張し、対照的な反射を取り入れ、エージェントは過去の相互作用から学ぶことができる。
自己学習によりGPT-4oを微調整することでエージェントの性能を向上させる。
- 参考スコア(独自算出の注目度): 78.42927884000673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we introduce Reflective Monte Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Moreover, we improve the agent's performance by fine-tuning GPT-4o through self-learning, using R-MCTS generated tree traversals without any human-provided labels. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the knowledge gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o matches 97% of R-MCTS's performance while reducing compute usage by a factor of four at test time. Furthermore, qualitative results reveal that the fine-tuned GPT-4o model demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success. Moreover, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.
- Abstract(参考訳): 自律エージェントは、複雑な多段階意思決定タスクを自動化する大きな可能性を証明している。
しかし、GPT-4oのような最先端のビジョン言語モデル(VLM)でさえ、特に複雑なWeb環境や長期計画タスクにおいて、人間レベルの性能に欠ける。
これらの制限に対処するために、GPT-4oを動力とするAIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムであるReflective Monte Carlo Tree Search (R-MCTS)を導入する。
R-MCTSは従来のMCTSを拡張します
1) 比較反射を取り入れることで、エージェントは過去の相互作用から学び、探索効率を動的に改善することができる。
2) 信頼性のある状態評価を行うためにマルチエージェントの議論を用いる。
さらに, R-MCTS 生成木トラバーサルを用いた自己学習により GPT-4o を微調整することにより, エージェントの性能を向上させる。
挑戦的な VisualWebArena ベンチマークでは,GPT-4o ベースの R-MCTS エージェントが,従来の最先端技術と比較して,さまざまなタスクに対して 6% から 30% の相対的な改善を実現している。
さらに,テストタイム検索から得られる知識を,微調整によりGPT-4oに効果的に戻すことができることを示す。
微調整の GPT-4o は R-MCTS の性能の 97% と一致し、テスト時に 4 倍の計算量を削減した。
さらに, 微調整GPT-4oモデルでは, 現状が成功に繋がらないことを検知した場合に, 環境探索, 状態評価, 実行可能な状態へのバックトラックを行うことができることを示した。
さらに,本研究は,R-MCTSを用いたデータ収集とテスト時間の両方のトレーニングにおける計算スケーリング特性を実証する。
これらの結果は,試験時間探索と自己学習によるエージェントアプリケーションに対するVLMの推論と計画能力を高めるための有望な研究方向を示唆している。
関連論文リスト
- ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Reinforcement learning informed evolutionary search for autonomous
systems testing [15.210312666486029]
本稿では,ドメイン知識から得られるサロゲート報酬を用いて学習した強化学習(RL)エージェントを用いて進化的探索(ES)を強化することを提案する。
RIGAAとして知られる我々の手法では、まずRLエージェントを訓練し、問題の有用な制約を学習し、それを用いて探索アルゴリズムの初期集団の特定の部分を生成する。
RIGAAは自律性アリロボットの迷路生成と自律車線維持支援システムの道路トポロジー生成の2つのケーススタディで評価した。
論文 参考訳(メタデータ) (2023-08-24T13:11:07Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。