論文の概要: Tree Search for Language Model Agents
- arxiv url: http://arxiv.org/abs/2407.01476v2
- Date: Sat, 12 Oct 2024 19:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:43.757693
- Title: Tree Search for Language Model Agents
- Title(参考訳): 言語モデルエージェントのための木探索
- Authors: Jing Yu Koh, Stephen McAleer, Daniel Fried, Ruslan Salakhutdinov,
- Abstract要約: 対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
- 参考スコア(独自算出の注目度): 69.43007235771383
- License:
- Abstract: Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a key limitation remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work. Our code and models are publicly released at https://jykoh.com/search-agents.
- Abstract(参考訳): 言語モデル(LM)を利用した自律エージェントは、Webオートメーションのような意思決定タスクを実行する能力を示す。
LMは、主に自然言語の理解と生成に最適化されており、現実的なコンピュータタスクを解く際には、多段階の推論、計画、環境フィードバックの使用に苦労している。
そこで本研究では,対話型Web環境における探索と多段階計画を明確に行うための,LMエージェントの推論時探索アルゴリズムを提案する。
われわれのアプローチは, 実環境空間内で動作する最優先木探索の一形態であり, 既存の最先端エージェントと相補的である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
挑戦的なVisualWebArenaベンチマークでは、GPT-4oエージェントの上に検索アルゴリズムを適用すると、検索なしの同じベースラインと比較して39.7%の成功率が上昇し、最先端の成功率26.4%が設定される。
WebArenaでは、検索はベースラインエージェントに対して28.0%の相対的な改善をもたらし、競争的な成功率は19.2%と設定されている。
実験では,Webエージェントの探索の有効性を強調し,テスト時間計算の増大による性能向上を実証した。
我々は、検索、制限、将来的な作業への有望な方向性の改善を明らかにするために、その結果を徹底的に分析する。
私たちのコードとモデルはhttps://jykoh.com/search-agents.comで公開されています。
関連論文リスト
- LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Cost Aware Asynchronous Multi-Agent Active Search [6.587280549237275]
未知の環境でターゲットを検出するオンライン能動探索アルゴリズムを提案する。
我々のアルゴリズムは、トンプソンサンプリング、モンテカルロ木探索、最適信頼境界の原理を組み合わせる。
我々は,コストを考慮した能動探索において,アルゴリズムの性能をシミュレーションで解析し,その有効性を示す。
論文 参考訳(メタデータ) (2022-10-05T13:38:30Z) - Zero-Shot Retrieval with Search Agents and Hybrid Environments [8.017306481455778]
現在の言語モデルは、伝統的な用語ベースの検索と組み合わせて、シンボリックなクエリ再構成ポリシーを学習することができるが、より優れたニューラル検索には及ばない。
本稿では,2つのエンコーダを経由した1回目検索の後に,個別のクエリ精算操作を受け入れるハイブリッド環境に,従来の学習環境を拡張した。
BEIRタスクの実験では、動作クローンによって訓練されたサーチエージェントが、二重エンコーダレシーバーとクロスエンコーダリランカの組み合わせに基づいて、基礎となるサーチシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-30T13:50:25Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。