論文の概要: Shopping Companion: A Memory-Augmented LLM Agent for Real-World E-Commerce Tasks
- arxiv url: http://arxiv.org/abs/2603.14864v1
- Date: Mon, 16 Mar 2026 06:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.088929
- Title: Shopping Companion: A Memory-Augmented LLM Agent for Real-World E-Commerce Tasks
- Title(参考訳): ショッピングコンパニオン: リアルタイムEコマースタスクのためのメモリ拡張LDMエージェント
- Authors: Zijian Yu, Kejun Xiao, Huaipeng Zhao, Tao Luo, Xiaoyi Zeng,
- Abstract要約: LLMエージェントは、レコメンデーション、予算設定、バンドル取引などのショッピングタスクの約束を示す。
本稿では,2つのショッピングタスクにまたがる,長期記憶機能を備えた新しいベンチマークを提案する。
本稿では,ユーザの介入を支援するとともに,メモリ検索とショッピング支援を共同で行う統合フレームワークであるショッピング・コンパニオンを提案する。
- 参考スコア(独自算出の注目度): 6.67534912037121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In e-commerce, LLM agents show promise for shopping tasks such as recommendations, budgeting, and bundle deals, where accurately capturing user preferences from long-term conversations is critical. However, two challenges hinder realizing this potential: (1) the absence of benchmarks for evaluating long-term preference-aware shopping tasks, and (2) the lack of end-to-end optimization due to existing designs that treat preference identification and shopping assistance as separate components. In this paper, we introduce a novel benchmark with a long-term memory setup, spanning two shopping tasks over 1.2 million real-world products, and propose Shopping Companion, a unified framework that jointly tackles memory retrieval and shopping assistance while supporting user intervention. To train such capabilities, we develop a dual-reward reinforcement learning strategy with tool-wise rewards to handle the sparse and discontinuous rewards inherent in multi-turn interactions. Experimental results demonstrate that even state-of-the-art models (such as GPT-5) achieve success rates under 70% on our benchmark, highlighting the significant challenges in this domain. Notably, our lightweight LLM, trained with Shopping Companion, consistently outperforms strong baselines, achieving better preference capture and task performance, which validates the effectiveness of our unified design.
- Abstract(参考訳): 電子商取引では、LLMエージェントは、リコメンデーション、予算設定、バンドル取引などのショッピングタスクの約束を示す。
しかし,この可能性を実現するには,(1)長期の嗜好認識型ショッピングタスクを評価するためのベンチマークの欠如,(2)嗜好識別とショッピング支援を別個のコンポーネントとして扱う既存設計によるエンドツーエンド最適化の欠如,の2つの課題がある。
本稿では,2つのショッピングタスクを120万以上の現実世界製品にまたがる長期記憶機能を備えた新しいベンチマークを提案し,ユーザ介入をサポートしながら,メモリ検索とショッピング支援を両立する統合フレームワークであるShopping Companionを提案する。
このような能力を訓練するために,多ターン相互作用に固有の疎小かつ不連続な報酬を扱うためのツールワイド報酬を用いた双方向逆強化学習戦略を開発した。
実験の結果,GPT-5のような最先端モデルでさえ,ベンチマークで70%未満の成功率を達成し,この領域における重要な課題を浮き彫りにした。
特に,ショッピング・コンパニオン(Shopping Companion)でトレーニングした軽量LLMは,強いベースラインを一貫して上回り,より優れた選好キャプチャとタスクパフォーマンスを実現し,統一設計の有効性を検証しています。
関連論文リスト
- Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation [59.362016745945375]
第1回LLM-Adnt Recommendation framework(TriRec)を提案する。
TriRecは、ユーザユーティリティ、アイテム露出、プラットフォームレベルの公正性を明示的に調整する。
精度、公平性、およびアイテムレベルのユーティリティにおいて、一貫した利得を示す。
論文 参考訳(メタデータ) (2026-03-11T11:40:13Z) - ChatShopBuddy: Towards Reliable Conversational Shopping Agents via Reinforcement Learning [88.87305027895657]
本研究では,現実シナリオにおけるショッピングエージェントの強化学習に基づく最適化について検討する。
エージェントは、客観的指標(生産的正確性)、主観的品質(説得性)、成果報酬(最終応答品質)、プロセス報酬(ツール効率)にまたがる複数の相互依存目標を同時に満たさなければならない。
実験の結果、我々のRL学習エージェントであるChatShopBuddyは、一般的な推論に依存する大きなモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-03-06T09:18:51Z) - ShoppingComp: Are LLMs Really Ready for Your Shopping Cart? [21.021833054625095]
ShoppingCompは、LLMを利用したショッピングエージェントを厳格に評価するための、現実的なベンチマークである。
実際の製品の保証と容易な検証性を保証するという原則の下で、非常に複雑なタスクを導入します。
ベンチマークには120のタスクと1,026のシナリオが含まれており、35人の専門家が本物のショッピングニーズを反映して実施している。
論文 参考訳(メタデータ) (2025-11-28T08:32:54Z) - E-CARE: An Efficient LLM-based Commonsense-Augmented Framework for E-Commerce [26.230331478424517]
電子商取引業務における効率的なコモンセンス強化勧告エンハンサー(E-CARE)を提案する。
推論中、E-CAREで拡張されたモデルは、クエリ毎に1つのLSMフォワードパスでコモンセンス推論にアクセスすることができる。
2つの下流タスクの実験では、精度が最大12.1%向上した。
論文 参考訳(メタデータ) (2025-11-06T05:57:48Z) - ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents [21.399546417224755]
既存のeコマースのベンチマークは主に、商品の発見や購入といった基本的なユーザー意図に焦点を当てている。
提案するShoppingBenchは,新たなエンドツーエンドショッピングベンチマークである。
インタラクティブなシミュレート環境として機能し,250万以上の現実世界製品が組み込まれている大規模ショッピングサンドボックスを提供する。
論文 参考訳(メタデータ) (2025-08-06T09:51:30Z) - Optimizing Recall or Relevance? A Multi-Task Multi-Head Approach for Item-to-Item Retrieval in Recommendation [23.61568268070558]
本稿では,ハイリコールとセマンティック関連性を両立するマルチタスクとマルチヘッドI2I検索モデルを提案する。
MTMHは数十億のユーザを対象とする商用プラットフォームのプロプライエタリなデータを用いて評価し、リコールを最大14.4%改善し、セマンティック関連性を最大56.6%向上させることができることを示した。
論文 参考訳(メタデータ) (2025-06-06T17:00:20Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。