論文の概要: A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains
- arxiv url: http://arxiv.org/abs/2508.15832v1
- Date: Mon, 18 Aug 2025 21:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.101341
- Title: A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains
- Title(参考訳): 電子商取引分野におけるWebエージェント評価のための機能評価ベンチマーク
- Authors: Xianren Zhang, Shreyas Prasad, Di Wang, Qiuhai Zeng, Suhang Wang, Wenbo Yan, Mat Hans,
- Abstract要約: 電子商取引分野の現在のベンチマークは2つの大きな問題に直面している。
主に製品検索のタスクに重点を置いており、現実世界のeコマースプラットフォームが提供する幅広い機能を捉えていない。
幅広いタスクをカバーするユーザクエリを生成するために,Amazon-Benchという新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 23.412858949638263
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Web agents have shown great promise in performing many tasks on ecommerce website. To assess their capabilities, several benchmarks have been introduced. However, current benchmarks in the e-commerce domain face two major problems. First, they primarily focus on product search tasks (e.g., Find an Apple Watch), failing to capture the broader range of functionalities offered by real-world e-commerce platforms such as Amazon, including account management and gift card operations. Second, existing benchmarks typically evaluate whether the agent completes the user query, but ignore the potential risks involved. In practice, web agents can make unintended changes that negatively impact the user account or status. For instance, an agent might purchase the wrong item, delete a saved address, or incorrectly configure an auto-reload setting. To address these gaps, we propose a new benchmark called Amazon-Bench. To generate user queries that cover a broad range of tasks, we propose a data generation pipeline that leverages webpage content and interactive elements (e.g., buttons, check boxes) to create diverse, functionality-grounded user queries covering tasks such as address management, wish list management, and brand store following. To improve the agent evaluation, we propose an automated evaluation framework that assesses both the performance and the safety of web agents. We systematically evaluate different agents, finding that current agents struggle with complex queries and pose safety risks. These results highlight the need for developing more robust and reliable web agents.
- Abstract(参考訳): Webエージェントは、eコマースのウェブサイトで多くのタスクを実行することに大きな可能性を示しています。
それらの能力を評価するために、いくつかのベンチマークが導入されている。
しかし、現在のEコマース分野のベンチマークは2つの大きな問題に直面している。
まず第一に、彼らは主に製品検索タスク(例えばApple Watchを探す)に焦点を当て、アカウント管理やギフトカード操作など、Amazonのような現実世界のeコマースプラットフォームが提供する幅広い機能を捉えていない。
第二に、既存のベンチマークは通常、エージェントがユーザクエリを完了したかどうかを評価するが、関連する潜在的なリスクを無視する。
実際には、Webエージェントは、ユーザアカウントやステータスに悪影響を及ぼす意図しない変更を行うことができる。
例えば、エージェントが間違ったアイテムを購入したり、保存したアドレスを削除したり、自動再ロードの設定を誤って設定したりします。
これらのギャップに対処するため、Amazon-Benchと呼ばれる新しいベンチマークを提案する。
幅広いタスクをカバーするユーザクエリを生成するために,Webページの内容とインタラクティブな要素(ボタン,チェックボックスなど)を活用するデータ生成パイプラインを提案し,アドレス管理やウィッシュリスト管理,ブランドストアのフォローといったタスクをカバーする多様な機能を持つユーザクエリを生成する。
エージェント評価を改善するために,Webエージェントの性能と安全性の両方を評価する自動評価フレームワークを提案する。
我々は、異なるエージェントを体系的に評価し、現在のエージェントが複雑なクエリに苦労し、安全性のリスクを生じさせることを発見した。
これらの結果は、より堅牢で信頼性の高いWebエージェントを開発する必要性を強調している。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - DeepShop: A Benchmark for Deep Research Shopping Agents [70.03744154560717]
DeepShopは、複雑なリアルなオンラインショッピング環境でWebエージェントを評価するために設計されたベンチマークである。
5つの人気のあるオンラインショッピングドメインに多様なクエリを生成します。
エージェントの性能をきめ細かな面から評価する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:08:17Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
既存のベンチマークは、エージェントがタスクを完了したか、それが安全に行われているか、あるいは企業が信頼できる方法で行われているかを無視するのみである。
textbftextscST-WebAgentBenchを紹介します。
222のタスクはそれぞれ、制約を符号化する簡潔なルールであるSTポリシーと組み合わせられ、6次元(例えば、ユーザの同意、堅牢性)に沿ってスコアされる。
論文 参考訳(メタデータ) (2024-10-09T09:13:38Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。