論文の概要: WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration
- arxiv url: http://arxiv.org/abs/2408.15978v1
- Date: Wed, 28 Aug 2024 17:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 14:59:16.350306
- Title: WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration
- Title(参考訳): WebPilot: 戦略的探索によるWebタスク実行のための多機能で自律的なマルチエージェントシステム
- Authors: Yao Zhang, Zijian Ma, Yunpu Ma, Zhen Han, Yu Wu, Volker Tresp,
- Abstract要約: 既存のLLMベースのWebエージェントは、特定の州や行動に特有の厳格で専門家が設計したポリシーに依存している。
人間は未知を探索し、戦略を継続的に順応し、探索を通じてあいまいさを解消することで優れる。
我々は,モンテカルロ木探索(MCTS)を改良し,複雑なWeb環境をよりよく扱うマルチエージェントシステムであるWebPilotを開発した。
- 参考スコア(独自算出の注目度): 42.8636989730348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based autonomous agents often fail to execute complex web tasks that require dynamic interaction due to the inherent uncertainty and complexity of these environments. Existing LLM-based web agents typically rely on rigid, expert-designed policies specific to certain states and actions, which lack the flexibility and generalizability needed to adapt to unseen tasks. In contrast, humans excel by exploring unknowns, continuously adapting strategies, and resolving ambiguities through exploration. To emulate human-like adaptability, web agents need strategic exploration and complex decision-making. Monte Carlo Tree Search (MCTS) is well-suited for this, but classical MCTS struggles with vast action spaces, unpredictable state transitions, and incomplete information in web tasks. In light of this, we develop WebPilot, a multi-agent system with a dual optimization strategy that improves MCTS to better handle complex web environments. Specifically, the Global Optimization phase involves generating a high-level plan by breaking down tasks into manageable subtasks and continuously refining this plan, thereby focusing the search process and mitigating the challenges posed by vast action spaces in classical MCTS. Subsequently, the Local Optimization phase executes each subtask using a tailored MCTS designed for complex environments, effectively addressing uncertainties and managing incomplete information. Experimental results on WebArena and MiniWoB++ demonstrate the effectiveness of WebPilot. Notably, on WebArena, WebPilot achieves SOTA performance with GPT-4, achieving a 93% relative increase in success rate over the concurrent tree search-based method. WebPilot marks a significant advancement in general autonomous agent capabilities, paving the way for more advanced and reliable decision-making in practical environments.
- Abstract(参考訳): LLMベースの自律エージェントは、これらの環境の固有の不確実性や複雑さのために、動的相互作用を必要とする複雑なWebタスクの実行に失敗することが多い。
既存の LLM ベースの Web エージェントは、通常、特定の状態や行動に特有の厳格で専門家が設計したポリシーに依存している。
対照的に、人間は未知を探索し、戦略を継続的に順応し、探索を通じて曖昧さを解消することで優れている。
ヒューマンライクな適応性をエミュレートするためには、Webエージェントは戦略的探索と複雑な意思決定が必要である。
モンテカルロ木探索(MCTS)はこれに適しているが、古典的なMCTSは膨大なアクション空間、予測不可能な状態遷移、Webタスクにおける不完全な情報を扱う。
そこで我々は,複雑なWeb環境を扱うためにMCTSを改善する2つの最適化戦略を備えたマルチエージェントシステムであるWebPilotを開発した。
具体的には、Global Optimizationフェーズでは、タスクを管理可能なサブタスクに分割し、このプランを継続的に改善することにより、検索プロセスに集中し、古典的MCTSにおける巨大なアクションスペースによる課題を軽減することによって、ハイレベルなプランを生成する。
その後、ローカル最適化フェーズは、複雑な環境向けに設計された調整されたMCTSを使用して各サブタスクを実行し、不確実性に対処し、不完全な情報を管理する。
WebArenaとMiniWoB++の実験結果は、WebPilotの有効性を示している。
特に WebArena では,GPT-4 で SOTA のパフォーマンスを達成し,同時木探索法よりも 93% の成功率の向上を実現している。
WebPilotは、一般的な自律エージェントの能力を大幅に進歩させ、実用的な環境でより高度で信頼性の高い意思決定の道を開く。
関連論文リスト
- Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and
Agent Generation [45.028795422801764]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。