論文の概要: Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation
- arxiv url: http://arxiv.org/abs/2510.13229v1
- Date: Wed, 15 Oct 2025 07:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.543573
- Title: Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation
- Title(参考訳): 静的LLM政策を超えて: 勧告のための模擬強化強化強化学習
- Authors: Yi Zhang, Lili Xie, Ruihong Qiu, Jiajun Liu, Sen Wang,
- Abstract要約: 大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.945049006150555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommender systems (RecSys) have become critical tools for enhancing user engagement by delivering personalized content across diverse digital platforms. Recent advancements in large language models (LLMs) demonstrate significant potential for improving RecSys, primarily due to their exceptional generalization capabilities and sophisticated contextual understanding, which facilitate the generation of flexible and interpretable recommendations. However, the direct deployment of LLMs as primary recommendation policies presents notable challenges, including persistent latency issues stemming from frequent API calls and inherent model limitations such as hallucinations and biases. To address these issues, this paper proposes a novel offline reinforcement learning (RL) framework that leverages imitation learning from LLM-generated trajectories. Specifically, inverse reinforcement learning is employed to extract robust reward models from LLM demonstrations. This approach negates the need for LLM fine-tuning, thereby substantially reducing computational overhead. Simultaneously, the RL policy is guided by the cumulative rewards derived from these demonstrations, effectively transferring the semantic insights captured by the LLM. Comprehensive experiments conducted on two benchmark datasets validate the effectiveness of the proposed method, demonstrating superior performance when compared against state-of-the-art RL-based and in-context learning baselines. The code can be found at https://github.com/ArronDZhang/IL-Rec.
- Abstract(参考訳): Recommenderシステム(RecSys)は、多様なデジタルプラットフォームにパーソナライズされたコンテンツを配信することで、ユーザエンゲージメントを高める重要なツールとなっている。
大規模言語モデル(LLM)の最近の進歩はRecSysを改善する大きな可能性を示している。
しかし、LLMを主要なレコメンデーションポリシーとして直接デプロイすることは、頻繁なAPI呼び出しに起因する永続的なレイテンシの問題や、幻覚やバイアスのような固有のモデル制限など、顕著な課題を呈している。
これらの課題に対処するために,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習(RL)フレームワークを提案する。
具体的には,LLM実験から頑健な報酬モデルを抽出するために逆強化学習を用いる。
このアプローチは、LLMの微調整の必要性を否定し、計算オーバーヘッドを大幅に削減する。
同時に、RLポリシーはこれらの実証から得られた累積報酬によって導かれ、LLMが捉えた意味的な洞察を効果的に伝達する。
2つのベンチマークデータセットで実施した総合的な実験により,提案手法の有効性が検証され,最先端のRLベースおよびコンテキスト内学習ベースラインと比較して優れた性能が得られた。
コードはhttps://github.com/ArronDZhang/IL-Recで見ることができる。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Decoding Recommendation Behaviors of In-Context Learning LLMs Through Gradient Descent [15.425423867768163]
本稿では,理論モデル LLM-ICL Recommendation Equivalent Gradient Descent Model (LRGD) を提案する。
LLMにおけるICL推論プロセスは、その二重モデルのトレーニング手順と一致し、二重モデルの試験出力に相当するトークン予測を生成する。
さらに実演効率を向上し,性能崩壊を防止し,長期適応性を確保するため,実演における2段階最適化プロセスを提案する。
論文 参考訳(メタデータ) (2025-04-06T06:36:45Z) - Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。
我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。
大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。