論文の概要: Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
- arxiv url: http://arxiv.org/abs/2410.02052v1
- Date: Wed, 02 Oct 2024 21:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:55:31.733922
- Title: Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
- Title(参考訳): 反射木探索と自己学習による自律型AIエージェントの改善
- Authors: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu,
- Abstract要約: Reflective Monte Carlo Tree Search (R-MCTS)は、AIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムである。
R-MCTSは1)従来のMCTSを拡張し、対照的な反射を取り入れ、エージェントは過去の相互作用から学ぶことができる。
自己学習によりGPT-4oを微調整することでエージェントの性能を向上させる。
- 参考スコア(独自算出の注目度): 78.42927884000673
- License:
- Abstract: Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we introduce Reflective Monte Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Moreover, we improve the agent's performance by fine-tuning GPT-4o through self-learning, using R-MCTS generated tree traversals without any human-provided labels. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the knowledge gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o matches 97% of R-MCTS's performance while reducing compute usage by a factor of four at test time. Furthermore, qualitative results reveal that the fine-tuned GPT-4o model demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success. Moreover, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.
- Abstract(参考訳): 自律エージェントは、複雑な多段階意思決定タスクを自動化する大きな可能性を証明している。
しかし、GPT-4oのような最先端のビジョン言語モデル(VLM)でさえ、特に複雑なWeb環境や長期計画タスクにおいて、人間レベルの性能に欠ける。
これらの制限に対処するために、GPT-4oを動力とするAIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムであるReflective Monte Carlo Tree Search (R-MCTS)を導入する。
R-MCTSは従来のMCTSを拡張します
1) 比較反射を取り入れることで、エージェントは過去の相互作用から学び、探索効率を動的に改善することができる。
2) 信頼性のある状態評価を行うためにマルチエージェントの議論を用いる。
さらに, R-MCTS 生成木トラバーサルを用いた自己学習により GPT-4o を微調整することにより, エージェントの性能を向上させる。
挑戦的な VisualWebArena ベンチマークでは,GPT-4o ベースの R-MCTS エージェントが,従来の最先端技術と比較して,さまざまなタスクに対して 6% から 30% の相対的な改善を実現している。
さらに,テストタイム検索から得られる知識を,微調整によりGPT-4oに効果的に戻すことができることを示す。
微調整の GPT-4o は R-MCTS の性能の 97% と一致し、テスト時に 4 倍の計算量を削減した。
さらに, 微調整GPT-4oモデルでは, 現状が成功に繋がらないことを検知した場合に, 環境探索, 状態評価, 実行可能な状態へのバックトラックを行うことができることを示した。
さらに,本研究は,R-MCTSを用いたデータ収集とテスト時間の両方のトレーニングにおける計算スケーリング特性を実証する。
これらの結果は,試験時間探索と自己学習によるエージェントアプリケーションに対するVLMの推論と計画能力を高めるための有望な研究方向を示唆している。
関連論文リスト
- Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。
反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文 参考訳(メタデータ) (2024-06-20T00:25:43Z) - Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs [54.054334823194615]
逆画像検索(Reverse Image Retrieval, RIR)拡張生成は, Web スケールの逆画像検索で MLLM を増強する単純な方法である。
RIRは、GPT-4Vの知識集約型視覚質問応答(VQA)を37-43%、GPT-4 Turboを25-27%、GPT-4oを18-20%改善する。
論文 参考訳(メタデータ) (2024-05-29T04:00:41Z) - Predicting Learning Performance with Large Language Models: A Study in Adult Literacy [18.48602704139462]
本研究では,大規模な言語モデル(LLM)を含む高度なAIモデルを用いて,ITSにおける成人リテラシープログラムにおける学習性能の予測を行う。
5倍のクロスバリデーション手法による学習性能の予測において,従来の機械学習手法と比較してGPT-4の予測能力を評価する。
論文 参考訳(メタデータ) (2024-03-04T08:14:07Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4 [23.856839017006386]
ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。
そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
論文 参考訳(メタデータ) (2024-01-24T21:02:07Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。