論文の概要: Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts
- arxiv url: http://arxiv.org/abs/2509.26093v2
- Date: Wed, 01 Oct 2025 03:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.841576
- Title: Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts
- Title(参考訳): ネットワーク・オブ・エキスパートによる会話レコメンダシステムの強化戦略最適化
- Authors: Xiaoyan Zhao, Ming Yan, Yang Zhang, Yang Deng, Jian Wang, Fengbin Zhu, Yilun Qiu, Hong Cheng, Tat-Seng Chua,
- Abstract要約: 会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 63.412646471177645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational Recommender Systems (CRSs) aim to provide personalized recommendations through multi-turn natural language interactions with users. Given the strong interaction and reasoning skills of Large Language Models (LLMs), leveraging LLMs for CRSs has recently emerged as a promising direction. However, existing LLM-based methods often lack explicit optimization of interaction strategies, instead relying on unified prompts and the LLM's internal knowledge to decide how to interact, which can lead to suboptimal outcomes. In this paper, we propose a novel Reinforced Strategy Optimization (RSO) method for CRS, which decomposes the process of generating strategy-driven response decisions into the macro-level strategy planning and micro-level strategy adaptation through a network-of-experts architecture. At the macro level, a Planner expert selects macro-level interaction strategies (e.g., recommend, explain, encourage). At the micro level, an Actor expert generates detailed responses conditioned on the selected macro-level strategy, guided by auxiliary experts that provide complementary information such as user preferences and factual grounding. This hierarchical decomposition disentangles the optimization of different sub-tasks involved in CRS response generation, enabling more tractable learning at each level. To address the scarcity of high-quality multi-turn training data, we formulate strategy learning as a reinforcement learning problem, guided by an LLM-based reward model to achieve automatic strategy exploration. Extensive experiments show that RSO significantly improves interaction performance compared to state-of-the-art baselines, demonstrating the effectiveness of explicit hierarchical strategy optimization for CRS.
- Abstract(参考訳): Conversational Recommender Systems (CRS)は、ユーザとのマルチターン自然言語インタラクションを通じてパーソナライズされたレコメンデーションを提供することを目的としている。
LLM(Large Language Models)の強い相互作用と推論能力から、CRSにLLMを活用することが、近年、有望な方向性として浮上している。
しかし、既存のLLMベースの手法は、しばしば相互作用戦略の明示的な最適化を欠き、代わりに統一的なプロンプトとLLMの内部知識を頼りに相互作用の仕方を決定する。
本稿では,CRSのための新たな強化戦略最適化(RSO)手法を提案する。これは,戦略駆動型応答決定をマクロレベルの戦略計画と,ネットワーク・オブ・エキスパートアーキテクチャによるマイクロレベルの戦略適応に分解する手法である。
マクロレベルでは、Plannerの専門家がマクロレベルのインタラクション戦略(例えば、推奨、説明、推奨)を選択する。
マイクロレベルでは、アクター専門家が選択したマクロレベルの戦略に基づいて詳細な応答を生成し、ユーザ好みや事実的根拠などの補完情報を提供する補助専門家によってガイドされる。
この階層的な分解は、CRS応答生成に関わる様々なサブタスクの最適化を混乱させ、各レベルでより学習しやすくする。
高品質なマルチターントレーニングデータの不足に対処するため,LSMに基づく報酬モデルによって指導された強化学習問題として戦略学習を定式化し,自動戦略探索を実現する。
大規模な実験により、RSSは最先端のベースラインと比較して相互作用性能を著しく改善し、CRSの明示的な階層的戦略最適化の有効性を実証した。
関連論文リスト
- SAGE: Strategy-Adaptive Generation Engine for Query Rewriting [8.941793732446856]
本稿では,SAGE(Strategy-Adaptive Generation Engine)について紹介する。
SAGEは、最先端のNDCG@10の結果を新たに達成すると同時に、魅力的な創発的行動も明らかにする。
この結果から, 戦略誘導型RLは, よりスケーラブルで, 効率的で, 解釈可能なパラダイムを, 次世代の堅牢な情報検索システム開発に役立てることが示唆された。
論文 参考訳(メタデータ) (2025-06-24T16:50:51Z) - Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。
オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。
オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文 参考訳(メタデータ) (2025-05-13T11:41:10Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。