Fugu-MT 論文翻訳(概要): FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

論文の概要: FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.11901v1
Date: Thu, 12 Mar 2026 13:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.099133
Title: FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning
Title（参考訳）: FlexRec: 強化学習を通じてフレキシブルなニーズにLLMベースのレコメンダを適用する
Authors: Yijun Pan, Weikang Qiu, Qiyao Ma, Mingxuan Ju, Tong Zhao, Neil Shah, Rex Ying,
Abstract要約: 本研究では,LLMがユーザコンテキストと明示的な要求指示に基づいて,固定された候補集合上の置換を生成する,クローズドセットの自動回帰ランキングについて検討する。この設定にRLを適用するには、2つの重要な障害がある: (i) シーケンスレベルの報酬は、きめ細かい訓練信号を提供するのに失敗する粗い信用代入をもたらす。両問題に対処するポストトレーニングRLフレームワークであるFlexRecを提案する。
参考スコア（独自算出の注目度）: 44.612191334982924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern recommender systems must adapt to dynamic, need-specific objectives for diverse recommendation scenarios, yet most traditional recommenders are optimized for a single static target and struggle to reconfigure behavior on demand. Recent advances in reinforcement-learning-based post-training have unlocked strong instruction-following and reasoning capabilities in LLMs, suggesting a principled route for aligning them to complex recommendation goals. Motivated by this, we study closed-set autoregressive ranking, where an LLM generates a permutation over a fixed candidate set conditioned on user context and an explicit need instruction. However, applying RL to this setting faces two key obstacles: (i) sequence-level rewards yield coarse credit assignment that fails to provide fine-grained training signals, and (ii) interaction feedback is sparse and noisy, which together lead to inefficient and unstable updates. We propose FlexRec, a post-training RL framework that addresses both issues with (1) a causally grounded item-level reward based on counterfactual swaps within the remaining candidate pool, and (2) critic-guided, uncertainty-aware scaling that explicitly models reward uncertainty and down-weights low-confidence rewards to stabilize learning under sparse supervision. Across diverse recommendation scenarios and objectives, FlexRec achieves substantial gains: it improves NDCG@5 by up to \textbf{59\%} and Recall@5 by up to \textbf{109.4\%} in need-specific ranking, and further achieves up to \textbf{24.1\%} Recall@5 improvement under generalization settings, outperforming strong traditional recommenders and LLM-based baselines.
Abstract（参考訳）: 現代のレコメンデータシステムは、多様なレコメンデーションシナリオのために、動的で要求固有の目的に適応する必要があるが、従来のレコメンデータのほとんどは、単一の静的ターゲットに最適化され、要求に応じて振る舞いを再設定するのに苦労している。強化学習に基づくポストトレーニングの最近の進歩は、LSMの強い指示追従能力と推論能力を解放し、それらを複雑な推奨目標に合わせるための原則的な経路を示唆している。そこで我々は,LLMがユーザコンテキストに条件付き固定された候補セットの置換と明示的な要求指示を生成する,クローズドセットの自動回帰ランキングについて検討した。しかし、この設定にRLを適用するには、2つの重要な障害に直面します。一微粒な訓練信号の提供に失敗する粗大な信用割当を受けること。 (ii) 相互作用フィードバックは疎度でノイズが多く、結果として非効率で不安定な更新につながります。両問題に対処するポストトレーニングRLフレームワークであるFlexRecを提案し,(1)残りの候補プール内の反ファクトスワップに基づく因果的根拠付きアイテムレベルの報酬,(2)不確実性を明示的にモデル化した批判的かつ不確実性を考慮したスケーリング,および低信頼度報酬を低信頼度にモデル化し,スパース・インスペクションの下で学習を安定させる。 NDCG@5 を \textbf{59\%} まで改善し、Recall@5 を \textbf{109.4\%} まで改善し、さらに \textbf{24.1\%} Recall@5 を一般化設定下で改善し、強力な伝統的レコメンデータと LLM ベースのベースラインを上回った。

論文の概要: FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

関連論文リスト