論文の概要: Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts
- arxiv url: http://arxiv.org/abs/2509.26093v1
- Date: Tue, 30 Sep 2025 11:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.111374
- Title: Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts
- Title(参考訳): ネットワーク・オブ・エキスパートによる会話レコメンダシステムの強化戦略最適化
- Authors: Xiaoyan Zhao,
- Abstract要約: 本稿では,応答生成をマクロレベルの戦略計画と,ネットワーク・オブ・エキスパート内のマイクロレベルの適応に分解する階層的フレームワークを提案する。
プランナーは戦略(例えば、推薦、説明、奨励)を選択し、アクターは、選好と事実的根拠に関する補助的な専門家によってガイドされた応答を生成する。
実験により、RSOは最先端のベースラインより優れており、階層的戦略最適化の有効性が検証されている。
- 参考スコア(独自算出の注目度): 1.8377845683239533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational Recommender Systems (CRSs) provide personalized recommendations through multi-turn interactions. With the strong reasoning abilities of Large Language Models (LLMs), applying them to CRSs has become promising. Yet, existing methods often lack explicit optimization of interaction strategies, relying instead on unified prompts, which can yield suboptimal outcomes. We propose Reinforced Strategy Optimization (RSO), a hierarchical framework that decomposes response generation into macro-level strategy planning and micro-level adaptation within a network-of-experts. A Planner selects strategies (e.g., recommend, explain, encourage), while an Actor generates responses guided by auxiliary experts for preferences and factual grounding. This disentanglement enables more tractable learning. To address limited multi-turn data, we model strategy learning as reinforcement learning with an LLM-based reward for exploration. Experiments show RSO outperforms state-of-the-art baselines, validating the effectiveness of hierarchical strategy optimization.
- Abstract(参考訳): Conversational Recommender Systems (CRS)は、マルチターンインタラクションを通じてパーソナライズされたレコメンデーションを提供する。
LLM(Large Language Models)の強力な推論能力により、CRSにそれらを適用することは有望になった。
しかし、既存の手法は相互作用戦略の明示的な最適化を欠くことが多く、代わりに統一的なプロンプトに頼っているため、最適以下の結果が得られる。
本稿では、応答生成をマクロレベル戦略計画とマイクロレベル適応に分解する階層的なフレームワークであるReinforced Strategy Optimization (RSO)を提案する。
プランナーは戦略(例えば、推薦、説明、奨励)を選択し、アクターは、選好と事実的根拠に関する補助専門家によってガイドされた回答を生成する。
この絡み合いは、より引き込みやすい学習を可能にします。
限られたマルチターンデータに対処するために,LLMに基づく探索報酬を用いた強化学習として戦略学習をモデル化する。
実験により、RSOは最先端のベースラインより優れており、階層的戦略最適化の有効性が検証されている。
関連論文リスト
- SAGE: Strategy-Adaptive Generation Engine for Query Rewriting [8.941793732446856]
本稿では,SAGE(Strategy-Adaptive Generation Engine)について紹介する。
SAGEは、最先端のNDCG@10の結果を新たに達成すると同時に、魅力的な創発的行動も明らかにする。
この結果から, 戦略誘導型RLは, よりスケーラブルで, 効率的で, 解釈可能なパラダイムを, 次世代の堅牢な情報検索システム開発に役立てることが示唆された。
論文 参考訳(メタデータ) (2025-06-24T16:50:51Z) - Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。
オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。
オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文 参考訳(メタデータ) (2025-05-13T11:41:10Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。