Fugu-MT 論文翻訳(概要): Beyond Browsing: API-Based Web Agents

論文の概要: Beyond Browsing: API-Based Web Agents

arxiv url: http://arxiv.org/abs/2410.16464v2
Date: Thu, 30 Jan 2025 18:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 16:35:21.089119
Title: Beyond Browsing: API-Based Web Agents
Title（参考訳）: ブラウザを超えて - APIベースのWebエージェント
Authors: Yueqi Song, Frank Xu, Shuyan Zhou, Graham Neubig,
Abstract要約: APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
参考スコア（独自算出の注目度）: 58.39129004543844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Web browsers are a portal to the internet, where much of human activity is undertaken. Thus, there has been significant research work in AI agents that interact with the internet through web browsing. However, there is also another interface designed specifically for machine interaction with online content: application programming interfaces (APIs). In this paper we ask -- what if we were to take tasks traditionally tackled by browsing agents, and give AI agents access to APIs? To do so, we propose two varieties of agents: (1) an API-calling agent that attempts to perform online tasks through APIs only, similar to traditional coding agents, and (2) a Hybrid Agent that can interact with online data through both web browsing and APIs. In experiments on WebArena, a widely-used and realistic benchmark for web navigation tasks, we find that API-based agents outperform web browsing agents. Hybrid Agents out-perform both others nearly uniformly across tasks, resulting in a more than 20.0% absolute improvement over web browsing alone, achieving a success rate of 35.8%, achiving the SOTA performance among task-agnostic agents. These results strongly suggest that when APIs are available, they present an attractive alternative to relying on web browsing alone.
Abstract（参考訳）: ウェブブラウザはインターネットのポータルであり、人間の活動の多くが行われている。このように、Webブラウジングを通じてインターネットと対話するAIエージェントにおいて、重要な研究が行われてきた。しかし、オンラインコンテンツとのマシンインタラクションに特化した別のインターフェースとして、アプリケーションプログラミングインタフェース(API)がある。従来、ブラウジングエージェントが取り組んだタスクを、AIエージェントがAPIにアクセスできるようにするとしたらどうでしょう? そこで我々は,(1)従来のコーディングエージェントと同様に,APIを通してのみオンラインタスクを実行しようとするAPI呼び出しエージェント,(2)WebブラウジングとAPIの両方を通じてオンラインデータと対話できるハイブリッドエージェントの2種類のエージェントを提案する。 Webナビゲーションタスクの広範で現実的なベンチマークであるWebArenaの実験では、APIベースのエージェントがWebブラウジングエージェントより優れていることがわかった。ハイブリッドエージェント(Hybrid Agents)は、タスク間でほぼ均一に性能を向上し、Webブラウジングだけでは20.0%以上の絶対的な改善を実現し、35.8%の成功率を達成し、タスクに依存しないエージェントの間でSOTAのパフォーマンスを達成した。これらの結果は、APIが利用可能であれば、Webブラウジングのみに頼るという、魅力的な代替手段が提示されることを強く示唆している。

関連論文リスト

Doc2Agent: Scalable Generation of Tool-Using Agents from API Documentation [2.4117201298131232]
Doc2Agentは、PythonベースのツールをAPIドキュメントから呼び出せるツールエージェントを構築するためのスケーラブルなパイプラインである。実世界のAPI、WebArena API、リサーチAPIに対するアプローチを評価し、検証されたツールを作成します。
論文参考訳（メタデータ） (2025-06-24T20:30:44Z)
WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents [1.6673034682613495]
我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。検索能力を有するLLMとSOTA Webエージェントの両方が、それぞれ3%と31%のリコールで、これらのタスクに苦労していることを示す。提案するBardeenAgentは,Webエージェントが実行をリピータブルなプログラムに変換し,類似した構造を持つページ間で大規模に再生することを可能にする新しいフレームワークである。 WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。
論文参考訳（メタデータ） (2025-04-17T06:16:40Z)
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3224918173672]
CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。 CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文参考訳（メタデータ） (2025-01-28T00:56:53Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文参考訳（メタデータ） (2024-10-24T18:01:28Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents [40.86728610906313]
AXISは、ユーザインタフェースアクションよりもアプリケーションプログラミングインターフェース(API)を通してアクションを優先順位付けする、LLMベースの新しいエージェントフレームワークである。 Office Wordでの実験では、AXISはタスク完了時間を65%-70%削減し、認知負荷を38%-53%削減し、精度は97%-98%と人間と比較した。また、すべてのアプリケーションをエージェントに変え、エージェント中心のオペレーティングシステム(Agent OS)への道を開く可能性についても検討している。
論文参考訳（メタデータ） (2024-09-25T17:58:08Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳（メタデータ） (2024-07-01T17:07:55Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文参考訳（メタデータ） (2024-06-03T05:50:00Z)
WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文参考訳（メタデータ） (2024-06-01T00:32:26Z)
MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文参考訳（メタデータ） (2024-04-15T17:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。