論文の概要: WebMall -- A Multi-Shop Benchmark for Evaluating Web Agents
- arxiv url: http://arxiv.org/abs/2508.13024v1
- Date: Mon, 18 Aug 2025 15:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.461264
- Title: WebMall -- A Multi-Shop Benchmark for Evaluating Web Agents
- Title(参考訳): WebMall -- Webエージェントを評価するためのマルチショップベンチマーク
- Authors: Ralph Peeters, Aaron Steiner, Luca Schwarz, Julian Yuya Caspary, Christian Bizer,
- Abstract要約: 本稿では,比較ショッピングにおけるWebエージェントの有効性と効率を評価するベンチマークであるWebMallを紹介する。
WebMallは、Common Crawlから提供された真正な製品で人口密度の高い4つのシミュレートされたオンラインショップで構成されている。
最高性能構成は75%と53%、F1スコアは87%と63%であり、それぞれ基本的なタスクセットと高度なタスクセットである。
- 参考スコア(独自算出の注目度): 3.180674374101366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based web agents have the potential to automate long-running web tasks, such as finding offers for specific products in multiple online shops and subsequently ordering the cheapest products that meet the users needs. This paper introduces WebMall, a multi-shop online shopping benchmark for evaluating the effectiveness and efficiency of web agents for comparison-shopping. WebMall consists of four simulated online shops populated with authentic product offers sourced from the Common Crawl, alongside a suite of 91 cross-shop tasks. These tasks include basic tasks such as finding specific products in multiple shops, performing price comparisons, adding items to the shopping cart, and completing checkout. Advanced tasks involve searching for products based on vague requirements, identifying suitable substitutes, and finding compatible products. Compared to existing e-commerce benchmarks, such as WebShop or ShoppingBench, WebMall introduces comparison-shopping tasks across multiple shops. Furthermore, the product offers are more heterogeneous, as they originate from hundreds of distinct real-world shops. The tasks in WebMall require longer interaction trajectories than those in WebShop, while remaining representative of real-world shopping behaviors. We evaluate eight baseline agents on WebMall, varying in observation modality, memory utilization, and underlying large language model (GPT 4.1 and Claude Sonnet 4). The best-performing configurations achieve completion rates of 75% and 53%, and F1 scores of 87% and 63%, on the basic and advanced task sets, respectively. WebMall is publicly released to facilitate research on web agents and to promote advancements in navigation, reasoning, and efficiency within e-commerce scenarios.
- Abstract(参考訳): LLMベースのWebエージェントは、複数のオンラインショップで特定の商品のオファーを見つけ、その後、ユーザーのニーズを満たす最も安い商品を注文するなど、長時間稼働するWebタスクを自動化する可能性がある。
本稿では,マルチショップオンラインショッピングベンチマークであるWebMallを紹介し,比較ショッピングにおけるWebエージェントの有効性と効率を評価する。
WebMallは4つのシミュレートされたオンラインショップで構成されており、Common Crawlから提供された真正な製品と91のクロスショップタスクのスイートで構成されている。
これらのタスクには、複数の店舗で特定の商品を見つける、価格比較を行う、ショッピングカートにアイテムを追加する、チェックアウトを完了するといった基本的なタスクが含まれる。
高度なタスクには、曖昧な要求に基づいて製品を探すこと、適切な代替品を特定すること、互換性のある製品を見つけることが含まれる。
WebShopやShoppingBenchのような既存のeコマースベンチマークと比較すると、WebMallは複数の店舗で比較ショッピングタスクを導入している。
さらに、商品のオファーはより異質であり、何百もの現実世界の店舗が起源である。
WebMallのタスクはWebShopのタスクよりも長いインタラクショントラジェクトリを必要とするが、実際のショッピング行動はそのままである。
我々は,WebMall上の8つのベースラインエージェントを評価し,観察モーダリティ,メモリ利用,基礎となる大規模言語モデル(GPT 4.1 と Claude Sonnet 4)が異なる。
最高性能構成は75%と53%、F1スコアは87%と63%であり、それぞれ基本的なタスクセットと高度なタスクセットである。
WebMallは、Webエージェントの研究を促進し、eコマースシナリオにおけるナビゲーション、推論、効率性の向上を促進するために、一般公開されている。
関連論文リスト
- WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - DeepShop: A Benchmark for Deep Research Shopping Agents [70.03744154560717]
DeepShopは、複雑なリアルなオンラインショッピング環境でWebエージェントを評価するために設計されたベンチマークである。
5つの人気のあるオンラインショッピングドメインに多様なクエリを生成します。
エージェントの性能をきめ細かな面から評価する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:08:17Z) - EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - SEQ+MD: Learning Multi-Task as a SEQuence with Multi-Distribution Data [5.069855142454979]
マルチタスク学習(MTL)のための逐次学習と,マルチディストリビューション入力のための特徴生成領域マスクを統合したSEQ+MDフレームワークを提案する。
クリック性能を中立に保ちながら、付加品と購入を含む高価値エンゲージメントの増大を示す。
我々のマルチリージョン学習モジュールは"plug-and-play"であり、他のMTLアプリケーションに容易に適応できる。
論文 参考訳(メタデータ) (2024-08-23T20:14:27Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
マルチホップタスクの完了におけるエージェントの進捗を評価するための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - WebShop: Towards Scalable Real-World Web Interaction with Grounded
Language Agents [34.03800649845855]
WebShopは、実世界の製品が18億ドル、クラウドソースのテキストが12,087ドルという、模擬eコマースのWeb環境だ。
我々は、強化学習、模倣学習、事前訓練された画像および言語モデルを用いて、多様なエージェントを訓練し、評価する。
amazon.comで評価すると、WebShopで訓練されたエージェントは非自明なsim-to-real転送を示す。
論文 参考訳(メタデータ) (2022-07-04T05:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。