論文の概要: ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents
- arxiv url: http://arxiv.org/abs/2508.04266v1
- Date: Wed, 06 Aug 2025 09:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.663567
- Title: ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents
- Title(参考訳): ShoppingBench: LLMベースのエージェントのための実世界のIntent-Grounded Shoppingベンチマーク
- Authors: Jiangyuan Wang, Kejun Xiao, Qi Sun, Huaipeng Zhao, Tao Luo, Jiandong Zhang, Xiaoyi Zeng,
- Abstract要約: 既存のeコマースのベンチマークは主に、商品の発見や購入といった基本的なユーザー意図に焦点を当てている。
提案するShoppingBenchは,新たなエンドツーエンドショッピングベンチマークである。
インタラクティブなシミュレート環境として機能し,250万以上の現実世界製品が組み込まれている大規模ショッピングサンドボックスを提供する。
- 参考スコア(独自算出の注目度): 21.399546417224755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks in e-commerce primarily focus on basic user intents, such as finding or purchasing products. However, real-world users often pursue more complex goals, such as applying vouchers, managing budgets, and finding multi-products seller. To bridge this gap, we propose ShoppingBench, a novel end-to-end shopping benchmark designed to encompass increasingly challenging levels of grounded intent. Specifically, we propose a scalable framework to simulate user instructions based on various intents derived from sampled real-world products. To facilitate consistent and reliable evaluations, we provide a large-scale shopping sandbox that serves as an interactive simulated environment, incorporating over 2.5 million real-world products. Experimental results demonstrate that even state-of-the-art language agents (such as GPT-4.1) achieve absolute success rates under 50% on our benchmark tasks, highlighting the significant challenges posed by our ShoppingBench. In addition, we propose a trajectory distillation strategy and leverage supervised fine-tuning, along with reinforcement learning on synthetic trajectories, to distill the capabilities of a large language agent into a smaller one. As a result, our trained agent achieves competitive performance compared to GPT-4.1.
- Abstract(参考訳): 既存のeコマースのベンチマークは主に、商品の発見や購入といった基本的なユーザー意図に焦点を当てている。
しかし、現実のユーザは、バウチャーの適用、予算の管理、マルチプロダクトの売り手を見つけるといった、より複雑な目標を追求することが多い。
このギャップを埋めるために、我々はShoppingBenchという新しいエンドツーエンドのショッピングベンチマークを提案する。
具体的には、実世界のサンプル製品から派生した様々な意図に基づいて、ユーザ指示をシミュレートするスケーラブルなフレームワークを提案する。
整合性および信頼性の高い評価を容易にするため,250万以上の現実世界製品が組み込まれ,対話型シミュレート環境として機能する大規模ショッピングサンドボックスを提供する。
GPT-4.1)のような最先端の言語エージェントでさえ、ベンチマークタスクで50%未満の絶対的な成功率を達成することを実証し、ShoppingBenchがもたらす重大な課題を浮き彫りにした。
さらに, トラジェクトリー蒸留戦略を提案し, 教師付き微調整と, 合成トラジェクトリーの強化学習を併用して, 大規模言語エージェントの能力をより小さいものに蒸留する。
その結果,トレーニングエージェントはGPT-4.1と比較して競争性能が向上した。
関連論文リスト
- EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling [22.885385107905222]
我々は50以上の視覚言語モデル(VLM)ベンチマークの統一実装であるUniBenchを紹介する。
約60の公開ビジョン言語モデルを評価することで,UniBenchの進歩度測定に有効であることを示す。
また、59モデルにまたがる50以上のベンチマークと比較の完全なセットと、1つのGPUで5分で実行されるベンチマークの蒸留セットを備えた、簡単に実行できるUniBenchコードベースもリリースしました。
論文 参考訳(メタデータ) (2024-08-09T01:41:05Z) - PUMGPT: A Large Vision-Language Model for Product Understanding [18.70740237744492]
PumGPTは、マルチモーダル製品理解タスク用に設計された最初の電子商取引専用LVLMである。
実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T14:01:37Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。