Fugu-MT 論文翻訳(概要): WebSuite: Systematically Evaluating Why Web Agents Fail

論文の概要: WebSuite: Systematically Evaluating Why Web Agents Fail

arxiv url: http://arxiv.org/abs/2406.01623v1
Date: Sat, 1 Jun 2024 00:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 21:31:36.184279
Title: WebSuite: Systematically Evaluating Why Web Agents Fail
Title（参考訳）: WebSuite: なぜWebエージェントが失敗するのかをシステム的に評価する
Authors: Eric Li, Jim Waldo,
Abstract要約: 我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
参考スコア（独自算出の注目度）: 2.200477647229223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We describe WebSuite, the first diagnostic benchmark for generalist web agents, designed to systematically evaluate why agents fail. Advances in AI have led to the rise of numerous web agents that autonomously operate a browser to complete tasks. However, most existing benchmarks focus on strictly measuring whether an agent can or cannot complete a task, without giving insight on why. In this paper, we 1) develop a taxonomy of web actions to facilitate identifying common failure patterns, and 2) create an extensible benchmark suite to assess agents' performance on our taxonomized actions. This benchmark suite consists of both individual tasks, such as clicking a button, and end-to-end tasks, such as adding an item to a cart, and is designed such that any failure of a task can be attributed directly to a failure of a specific web action. We evaluate two popular generalist web agents, one text-based and one multimodal, and identify unique weaknesses for each agent. Because WebSuite can disaggregate task failures into specific action failures, this enables granular identification of which UX flows an individual agent has trouble with and immediately highlights promising avenues for improvement. These findings highlight the need for more focused benchmarking on where web agents go wrong to effectively improve agents beyond their weaker performance today.
Abstract（参考訳）: 汎用Webエージェントのための最初の診断ベンチマークであるWebSuiteについて述べる。 AIの進歩は、タスクを完了するためにブラウザを自律的に操作する多数のWebエージェントの台頭につながっている。しかし、既存のベンチマークのほとんどは、エージェントがタスクを完了できるかどうかを、理由を知ることなく厳密に測定することに焦点を当てている。本稿では, 1)共通の障害パターンの識別を容易にするためのWebアクションの分類法を開発し、 2) 分類された行動におけるエージェントのパフォーマンスを評価するための拡張可能なベンチマークスイートを作成する。このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するといったエンドツーエンドタスクの両方で構成されており、タスクの失敗は、特定のWebアクションの失敗に直接原因付けることができるように設計されている。我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。 WebSuiteはタスクの障害を特定のアクション障害に分解できるため、個々のエージェントが問題のあるUXフローの詳細な識別が可能になり、改善のための有望な方法がすぐに強調される。これらの調査結果は、今日のパフォーマンスの弱さを超えて、エージェントを効果的に改善するために、Webエージェントがどこが悪いのか、より集中したベンチマークの必要性を浮き彫りにしている。

関連論文リスト

WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [27.091938524991534]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。 WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文参考訳（メタデータ） (2025-07-01T16:43:57Z)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。エージェントは16～86%の時間で敵の指示を実行開始するが、0～17%の時間しか目標を達成できない。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文参考訳（メタデータ） (2025-04-02T05:51:29Z)
Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。提案手法はまず,対象領域の実証から意図を教師なしで発見する。我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文参考訳（メタデータ） (2024-10-29T21:37:04Z)
Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文参考訳（メタデータ） (2024-10-21T19:46:06Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Multimodal Auto Validation For Self-Refinement in Web Agents [0.5843533603338313]
本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。本稿では,異なるモーダル性(テキスト,視覚)の包括的研究と,Webエージェントの自動検証における階層構造の影響について述べる。我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。
論文参考訳（メタデータ） (2024-10-01T13:43:55Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文参考訳（メタデータ） (2023-07-24T14:56:30Z)
Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。 31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。 Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文参考訳（メタデータ） (2023-06-09T17:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。