論文の概要: Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2602.00632v1
- Date: Sat, 31 Jan 2026 10:02:43 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-02-03 13:37:29.812587
- Title: Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation
- Title(参考訳): LLMレコメンデーションのためのサンプル効率・安定強化学習に向けて
- Authors: Hongxun Ding, Keqin Bao, Jizhi Zhang, Yi Fang, Wenxin Xu, Fuli Feng, Xiangnan He,
- Abstract要約: Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
- 参考スコア(独自算出の注目度): 56.92367609590823
- License:
- Abstract: While Long Chain-of-Thought (Long CoT) reasoning has shown promise in Large Language Models (LLMs), its adoption for enhancing recommendation quality is growing rapidly. In this work, we critically examine this trend and argue that Long CoT is inherently ill-suited for the sequential recommendation domain. We attribute this misalignment to two primary factors: excessive inference latency and the lack of explicit cognitive reasoning patterns in user behavioral data. Driven by these observations, we propose pivoting away from the CoT structure to directly leverage its underlying mechanism: Reinforcement Learning (RL), to explore the item space. However, applying RL directly faces significant obstacles, notably low sample efficiency-where most actions fail to provide learning signals-and training instability. To overcome these limitations, we propose RISER, a novel Reinforced Item Space Exploration framework for Recommendation. RISER is designed to transform non-learnable trajectories into effective pairwise preference data for optimization. Furthermore, it incorporates specific strategies to ensure stability, including the prevention of redundant rollouts and the constraint of token-level update magnitudes. Extensive experiments on three real-world datasets show that RISER significantly outperforms competitive baselines, establishing a robust paradigm for RL-enhanced LLM recommendation. Our code will be available at https://anonymous.4open.science/r/RISER/.
- Abstract(参考訳): Long Chain-of-Thought (Long CoT) 推論は,Large Language Models (LLMs) において有望であるが,レコメンデーション品質向上への採用は急速に増加している。
本稿では、この傾向を批判的に検証し、Long CoTは本質的にシーケンシャルレコメンデーションドメインに不適合であると主張している。
このミスアライメントは、過剰な推論遅延と、ユーザの行動データに明確な認知的推論パターンが欠如している、という2つの主要な要因に起因している。
これらの観察に基づいて、我々はCoT構造から方向転換して、その基盤となるメカニズムである強化学習(RL)を直接活用し、アイテム空間を探索することを提案する。
しかしながら、RLの適用は、特にサンプル効率の低い、ほとんどのアクションが学習信号の提供に失敗し、トレーニングの不安定さなど、大きな障害に直面している。
これらの制約を克服するために,新しい推奨項目空間探索フレームワークRISERを提案する。
RISERは、学習不可能な軌道を、最適化のための効果的なペアワイズ選好データに変換するように設計されている。
さらに、冗長なロールアウトの防止やトークンレベルの更新サイズの制限など、安定性を確保するための具体的な戦略も組み込まれている。
3つの実世界のデータセットに対する大規模な実験により、RISERは競争ベースラインを大幅に上回っており、RL強化LLMレコメンデーションの堅牢なパラダイムを確立している。
私たちのコードはhttps://anonymous.4open.science/r/RISER/で公開されます。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。