論文の概要: AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents
- arxiv url: http://arxiv.org/abs/2410.13825v1
- Date: Thu, 17 Oct 2024 17:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:50.742286
- Title: AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents
- Title(参考訳): AgentOccam: LLMベースのWebエージェントのためのシンプルで強力なベースライン
- Authors: Ke Yang, Yao Liu, Sapana Chaudhary, Rasool Fakoor, Pratik Chaudhari, George Karypis, Huzefa Rangwala,
- Abstract要約: 本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
- 参考スコア(独自算出の注目度): 52.13695464678006
- License:
- Abstract: Autonomy via agents using large language models (LLMs) for personalized, standardized tasks boosts human efficiency. Automating web tasks (like booking hotels within a budget) is increasingly sought after. Fulfilling practical needs, the web agent also serves as an important proof-of-concept example for various agent grounding scenarios, with its success promising advancements in many future applications. Prior research often handcrafts web agent strategies (e.g., prompting templates, multi-agent systems, search methods, etc.) and the corresponding in-context examples, which may not generalize well across all real-world scenarios. On the other hand, there has been limited study on the misalignment between a web agent's observation/action representation and the pre-training data of the LLM it's based on. This discrepancy is especially notable when LLMs are primarily trained for language completion rather than tasks involving embodied navigation actions and symbolic web elements. Our study enhances an LLM-based web agent by simply refining its observation and action space to better align with the LLM's capabilities. This approach enables our base agent to significantly outperform previous methods on a wide variety of web tasks. Specifically, on WebArena, a benchmark featuring general-purpose web interaction tasks, our agent AgentOccam surpasses the previous state-of-the-art and concurrent work by 9.8 (+29.4%) and 5.9 (+15.8%) absolute points respectively, and boosts the success rate by 26.6 points (+161%) over similar plain web agents with its observation and action space alignment. We achieve this without using in-context examples, new agent roles, online feedback or search strategies. AgentOccam's simple design highlights LLMs' impressive zero-shot performance on web tasks, and underlines the critical role of carefully tuning observation and action spaces for LLM-based agents.
- Abstract(参考訳): パーソナライズされた標準化されたタスクのために大きな言語モデル(LLM)を使用するエージェントによる自律性は、人間の効率を高める。
ウェブタスクの自動化(予算内でホテルを予約するなど)がますます求められている。
現実的なニーズを満たすために、Webエージェントは様々なエージェント基盤シナリオの重要な概念実証の例としても機能し、多くの将来のアプリケーションでその成功が期待できる。
以前の研究では、Webエージェント戦略(テンプレート、マルチエージェントシステム、検索メソッドなど)や、それに対応するコンテキスト内の例を手作業で行うことが多かった。
一方、Webエージェントの観察・行動表現とLLMの事前学習データとの相違について、限定的な研究がなされている。
この違いは、LLMが具体化されたナビゲーションアクションやシンボリックWeb要素を含むタスクよりも、主に言語完成のために訓練されている場合に特に顕著である。
本研究は, LLM の能力に適合する観測空間と行動空間を改良し, LLM ベースの Web エージェントを改良する。
このアプローチにより、ベースエージェントは、様々なWebタスクにおいて、従来のメソッドよりも大幅にパフォーマンスが向上する。
具体的には、汎用Webインタラクションタスクを特徴とするベンチマークであるWebArenaにおいて、エージェントのAgentOccamは、それぞれ9.8 (+29.4%) と5.9 (+15.8%) の絶対点を達成し、観察とアクション空間のアライメントにより、同様のプレーンなWebエージェントよりも26.6ポイント (+161%) の成功率を高める。
我々は、コンテキスト内例、新しいエージェントロール、オンラインフィードバック、検索戦略を使わずにこれを実現する。
AgentOccam のシンプルな設計は、Web タスクにおける LLM の印象的なゼロショット性能を強調し、LLM ベースのエージェントの観察とアクション空間を注意深くチューニングする重要な役割を浮き彫りにしている。
関連論文リスト
- CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。