論文の概要: FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.11901v1
- Date: Thu, 12 Mar 2026 13:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.099133
- Title: FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning
- Title(参考訳): FlexRec: 強化学習を通じてフレキシブルなニーズにLLMベースのレコメンダを適用する
- Authors: Yijun Pan, Weikang Qiu, Qiyao Ma, Mingxuan Ju, Tong Zhao, Neil Shah, Rex Ying,
- Abstract要約: 本研究では,LLMがユーザコンテキストと明示的な要求指示に基づいて,固定された候補集合上の置換を生成する,クローズドセットの自動回帰ランキングについて検討する。
この設定にRLを適用するには、2つの重要な障害がある: (i) シーケンスレベルの報酬は、きめ細かい訓練信号を提供するのに失敗する粗い信用代入をもたらす。
両問題に対処するポストトレーニングRLフレームワークであるFlexRecを提案する。
- 参考スコア(独自算出の注目度): 44.612191334982924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern recommender systems must adapt to dynamic, need-specific objectives for diverse recommendation scenarios, yet most traditional recommenders are optimized for a single static target and struggle to reconfigure behavior on demand. Recent advances in reinforcement-learning-based post-training have unlocked strong instruction-following and reasoning capabilities in LLMs, suggesting a principled route for aligning them to complex recommendation goals. Motivated by this, we study closed-set autoregressive ranking, where an LLM generates a permutation over a fixed candidate set conditioned on user context and an explicit need instruction. However, applying RL to this setting faces two key obstacles: (i) sequence-level rewards yield coarse credit assignment that fails to provide fine-grained training signals, and (ii) interaction feedback is sparse and noisy, which together lead to inefficient and unstable updates. We propose FlexRec, a post-training RL framework that addresses both issues with (1) a causally grounded item-level reward based on counterfactual swaps within the remaining candidate pool, and (2) critic-guided, uncertainty-aware scaling that explicitly models reward uncertainty and down-weights low-confidence rewards to stabilize learning under sparse supervision. Across diverse recommendation scenarios and objectives, FlexRec achieves substantial gains: it improves NDCG@5 by up to \textbf{59\%} and Recall@5 by up to \textbf{109.4\%} in need-specific ranking, and further achieves up to \textbf{24.1\%} Recall@5 improvement under generalization settings, outperforming strong traditional recommenders and LLM-based baselines.
- Abstract(参考訳): 現代のレコメンデータシステムは、多様なレコメンデーションシナリオのために、動的で要求固有の目的に適応する必要があるが、従来のレコメンデータのほとんどは、単一の静的ターゲットに最適化され、要求に応じて振る舞いを再設定するのに苦労している。
強化学習に基づくポストトレーニングの最近の進歩は、LSMの強い指示追従能力と推論能力を解放し、それらを複雑な推奨目標に合わせるための原則的な経路を示唆している。
そこで我々は,LLMがユーザコンテキストに条件付き固定された候補セットの置換と明示的な要求指示を生成する,クローズドセットの自動回帰ランキングについて検討した。
しかし、この設定にRLを適用するには、2つの重要な障害に直面します。
一 微粒な訓練信号の提供に失敗する粗大な信用割当を受けること。
(ii) 相互作用フィードバックは疎度でノイズが多く、結果として非効率で不安定な更新につながります。
両問題に対処するポストトレーニングRLフレームワークであるFlexRecを提案し,(1)残りの候補プール内の反ファクトスワップに基づく因果的根拠付きアイテムレベルの報酬,(2)不確実性を明示的にモデル化した批判的かつ不確実性を考慮したスケーリング,および低信頼度報酬を低信頼度にモデル化し,スパース・インスペクションの下で学習を安定させる。
NDCG@5 を \textbf{59\%} まで改善し、Recall@5 を \textbf{109.4\%} まで改善し、さらに \textbf{24.1\%} Recall@5 を一般化設定下で改善し、強力な伝統的レコメンデータと LLM ベースのベースラインを上回った。
関連論文リスト
- Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。
ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。
ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文 参考訳(メタデータ) (2025-10-23T02:56:00Z) - Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。
我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。
大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。