論文の概要: ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants
- arxiv url: http://arxiv.org/abs/2601.18225v1
- Date: Mon, 26 Jan 2026 07:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.717563
- Title: ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants
- Title(参考訳): ShopSimulator:ショッピングアシスタントのためのRL駆動LLMエージェントの評価と探索
- Authors: Pei Wang, Yanan Wu, Xiaoshuai Song, Weixun Wang, Gengru Chen, Zhongwen Li, Kezhong Yan, Ken Deng, Qi Liu, Shuaibing Zhao, Shaopan Xiong, Xuepeng Liu, Xuefeng Chen, Wanxi Deng, Wenbo Su, Bo Zheng,
- Abstract要約: 大規模かつ挑戦的な中国のショッピング環境であるShopSimulatorを紹介した。
様々なシナリオにまたがってLCMを評価し、最高の性能のモデルでさえ40%未満の完全成功率を達成することを発見した。
さらなる訓練は、これらの弱点を克服するための実践的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 30.950450014358722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based agents are increasingly deployed in e-commerce shopping. To perform thorough, user-tailored product searches, agents should interpret personal preferences, engage in multi-turn dialogues, and ultimately retrieve and discriminate among highly similar products. However, existing research has yet to provide a unified simulation environment that consistently captures all of these aspects, and always focuses solely on evaluation benchmarks without training support. In this paper, we introduce ShopSimulator, a large-scale and challenging Chinese shopping environment. Leveraging ShopSimulator, we evaluate LLMs across diverse scenarios, finding that even the best-performing models achieve less than 40% full-success rate. Error analysis reveals that agents struggle with deep search and product selection in long trajectories, fail to balance the use of personalization cues, and to effectively engage with users. Further training exploration provides practical guidance for overcoming these weaknesses, with the combination of supervised fine-tuning (SFT) and reinforcement learning (RL) yielding significant performance improvements. Code and data will be released at https://github.com/ShopAgent-Team/ShopSimulator.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、ますますeコマースショッピングにデプロイされている。
ユーザがカスタマイズした製品検索を徹底的に行うためには、エージェントは個人の好みを解釈し、マルチターン対話を行い、最終的に非常に類似した製品の中から識別し、検索する必要がある。
しかし、既存の研究は、これらの全ての側面を一貫して捉え、トレーニングサポートなしで評価ベンチマークのみに焦点を当てる統一的なシミュレーション環境を提供していない。
本稿では,中国における大規模かつ挑戦的なショッピング環境であるShopSimulatorを紹介する。
ShopSimulatorを利用することで、様々なシナリオでLCMを評価し、最高の性能のモデルでも40%未満の完全成功率を達成することを発見した。
エラー分析により、エージェントは長い道のりで深い検索と製品選択に苦労し、パーソナライズ手法の使用のバランスが取れず、効果的にユーザーと関わり合っていることが明らかになった。
さらなる訓練探索により、これらの弱点を克服するための実践的なガイダンスが提供され、教師付き微調整(SFT)と強化学習(RL)が組み合わされ、性能が大幅に向上した。
コードとデータはhttps://github.com/ShopAgent-Team/ShopSimulator.comで公開される。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。
モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。
これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文 参考訳(メタデータ) (2024-08-28T10:31:50Z) - Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions [17.0313335845013]
本稿では,RLエージェントのベンチマークを目的としたショッピング行動の包括的シミュレーションについて述べる。
私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。
実験の結果,スパース報酬分布に過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-05-16T23:27:21Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。