論文の概要: DeepShop: A Benchmark for Deep Research Shopping Agents
- arxiv url: http://arxiv.org/abs/2506.02839v1
- Date: Tue, 03 Jun 2025 13:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.685973
- Title: DeepShop: A Benchmark for Deep Research Shopping Agents
- Title(参考訳): DeepShop: ディープリサーチショッピングエージェントのベンチマーク
- Authors: Yougang Lyu, Xiaoyu Zhang, Lingyong Yan, Maarten de Rijke, Zhaochun Ren, Xiuying Chen,
- Abstract要約: DeepShopは、複雑なリアルなオンラインショッピング環境でWebエージェントを評価するために設計されたベンチマークである。
5つの人気のあるオンラインショッピングドメインに多様なクエリを生成します。
エージェントの性能をきめ細かな面から評価する自動評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 70.03744154560717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents for online shopping have shown great promise in automating user interactions across e-commerce platforms. Benchmarks for assessing such agents do not reflect the complexity of real-world shopping scenarios, as they often consist of overly simple queries with deterministic paths, such as "Find iPhone 15." Real shopping scenarios are inherently more layered, involving multi-dimensional product attributes, search filters, and user-specific sorting preferences. To address this gap, we introduce DeepShop, a benchmark designed to evaluate web agents in complex and realistic online shopping environments. DeepShop comprises three key components. (1) Query diversity evolution: Starting from real user queries, we generate diverse queries across five popular online shopping domains. (2) Query complexity evolution: We further evolve these queries to increase complexity, considering product attributes, search filters, and sorting preferences, and classify them into three levels: easy, medium, and hard, based on the number of evolutions. (3) Fine-grained and holistic evaluation: We propose an automated evaluation framework that assesses agent performance in terms of fine-grained aspects (product attributes, search filters, and sorting preferences) and reports the overall success rate through holistic evaluation. We conduct a systematic evaluation of retrieval-augmented generation (RAG) methods, web agents, and deep research systems. Results show that RAG struggles with complex queries due to its lack of web interaction, while other methods face significant challenges with filters and sorting preferences, leading to low overall success rates. We also perform cross-category, complexity-based evaluations and error analyses to support the advancement of deep research shopping agents.
- Abstract(参考訳): オンラインショッピングのウェブエージェントは、eコマースプラットフォーム間でのユーザーインタラクションの自動化において大きな可能性を秘めている。
このようなエージェントを評価するためのベンチマークは、現実のショッピングシナリオの複雑さを反映していない。
実際のショッピングシナリオは本質的に,多次元製品属性や検索フィルタ,ユーザ固有のソート設定など,階層化されている。
このギャップに対処するために、Webエージェントを複雑で現実的なオンラインショッピング環境で評価するためのベンチマークであるDeepShopを紹介した。
DeepShopは3つの重要なコンポーネントから構成される。
1) クエリの多様性の進化: 実際のユーザクエリから始めると、5つの人気のあるオンラインショッピングドメインにまたがる多様なクエリを生成する。
2) クエリ複雑性の進化: 製品属性,検索フィルタ,選好のソートなどを考慮して,これらのクエリをさらに進化させ,進化の数に基づいて,容易,中,困難という3つのレベルに分類する。
3)細粒度・全体評価:細粒度アスペクト(製品属性,検索フィルタ,選別選好)を用いてエージェントのパフォーマンスを評価する自動評価フレームワークを提案し,総合評価により全体の成功率を報告する。
我々は,検索強化世代(RAG)法,Webエージェント,深層研究システムの体系的評価を行う。
その結果、RAGはWebインタラクションの欠如により複雑なクエリに苦しむ一方で、他の手法ではフィルタやソートという重要な課題に直面しており、全体的な成功率の低下につながっている。
また,ディープリサーチショッピングエージェントの高度化を支援するために,クロスカテゴリ,複雑性に基づく評価,エラー分析を実施している。
関連論文リスト
- MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Semantic Ads Retrieval at Walmart eCommerce with Language Models Progressively Trained on Multiple Knowledge Domains [6.1008328784394]
Walmart.comの広告検索システムを最適化するために,エンド・ツー・エンドのソリューションを提案する。
当社のアプローチは,製品カテゴリ情報を用いたBERTライクな分類モデルを事前学習することである。
ベースラインDSSMベースのモデルと比較して,検索関連度を最大16%向上させる。
論文 参考訳(メタデータ) (2025-02-13T09:01:34Z) - MRSE: An Efficient Multi-modality Retrieval System for Large Scale E-commerce [42.3177388371158]
現在の埋め込みベースのRetrieval Systemsは、クエリとアイテムを共有の低次元空間に埋め込む。
本稿では,テキスト,項目画像,ユーザ嗜好を統合したマルチモーダル検索システムMRSEを提案する。
MRSEはオフラインの妥当性が18.9%向上し、オンラインのコアメトリクスが3.7%向上した。
論文 参考訳(メタデータ) (2024-08-27T11:21:19Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Que2Engage: Embedding-based Retrieval for Relevant and Engaging Products
at Facebook Marketplace [15.054431410052851]
Que2Engageは、エンドツーエンド最適化のための検索とランキングのギャップを埋めるために構築された検索用EBRシステムである。
提案手法の有効性を,マルチタスク評価フレームワークと徹底的なベースライン比較およびアブレーション研究を通じて示す。
論文 参考訳(メタデータ) (2023-02-21T23:10:16Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。