論文の概要: ChatShopBuddy: Towards Reliable Conversational Shopping Agents via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.06065v1
- Date: Fri, 06 Mar 2026 09:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.484019
- Title: ChatShopBuddy: Towards Reliable Conversational Shopping Agents via Reinforcement Learning
- Title(参考訳): ChatShopBuddy:強化学習による信頼性の高い会話型ショッピングエージェントを目指して
- Authors: Yiruo Cheng, Kelong Mao, Tianhao Li, Jiejun Tan, Ji-Rong Wen, Zhicheng Dou,
- Abstract要約: 本研究では,現実シナリオにおけるショッピングエージェントの強化学習に基づく最適化について検討する。
エージェントは、客観的指標(生産的正確性)、主観的品質(説得性)、成果報酬(最終応答品質)、プロセス報酬(ツール効率)にまたがる複数の相互依存目標を同時に満たさなければならない。
実験の結果、我々のRL学習エージェントであるChatShopBuddyは、一般的な推論に依存する大きなモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 88.87305027895657
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conversational shopping agents represent a critical consumer-facing application of Large Language Model (LLM)-powered agents, yet how to effectively apply post-training Reinforcement Learning (RL) to optimize such agents remains underexplored. This work investigates RL-based optimization for shopping agents in real-world scenarios, where agents must simultaneously satisfy multiple interdependent objectives spanning objective metrics (product correctness), subjective qualities (persuasiveness), outcome rewards (final response quality), and process rewards (tool efficiency). We present a complete methodology to address this challenge. Specifically, we first construct SmartShopBench, a benchmark that captures diverse shopping intents with a hierarchical evaluation that decomposes complex quality requirements into measurable levels. Building on this evaluation framework, we design Hierarchical Reward Modeling (HRM) to structure mixed reward types through conditional gating that reflects their logical dependencies. To enable efficient training, we further propose Dynamic Contrastive Policy Optimization (DCPO), which balances response quality with operational efficiency through dynamic trajectory selection based on reward and reasoning length. Extensive experiments demonstrate that our RL-trained agent, namely ChatShopBuddy, consistently outperforms larger models relying on generic reasoning, achieving superior stability rather than merely higher peaks. Our work provides valuable guidance for applying RL to real-world conversational agents.
- Abstract(参考訳): 対話型ショッピングエージェントは,Large Language Model (LLM) を利用したエージェントの消費者への重要な応用を代表しているが,そのようなエージェントを最適化するために,学習後強化学習 (RL) を効果的に適用する方法はいまだ検討されていない。
本研究では, 現実シナリオにおけるショッピングエージェントのRLに基づく最適化について検討し, 客観的指標(生産精度), 主観的品質(説得性), 結果報酬(最終応答品質), プロセス報酬(ツール効率)を対象とする複数の相互依存目標を同時に満たさなければならない。
この課題に対処するための完全な方法論を提示する。
具体的には、まず、複雑な品質要件を測定可能なレベルに分解する階層的な評価によって、多様なショッピング意図をキャプチャするベンチマークであるSmartShopBenchを構築します。
この評価枠組みに基づいて階層的リワードモデリング(HRM)を設計し、それらの論理的依存関係を反映した条件付きゲーティングを通じて混合報酬型を構築する。
さらに,報酬と推論長に基づく動的軌道選択により,応答品質と運用効率のバランスをとる動的コントラストポリシー最適化(DCPO)を提案する。
大規模な実験では、我々のRL学習エージェントであるChatShopBuddyが、単に高いピークよりも優れた安定性を達成し、ジェネリック推論に依存する大きなモデルよりも一貫して優れていることが示された。
我々の研究は、実世界の会話エージェントにRLを適用するための貴重なガイダンスを提供する。
関連論文リスト
- Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。