論文の概要: RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking
- arxiv url: http://arxiv.org/abs/2410.05939v1
- Date: Tue, 08 Oct 2024 11:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:33:10.139506
- Title: RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking
- Title(参考訳): RLRF4Rec: Recsys Feedbackから強化されたリコメンデーションリグレードのための強化学習
- Authors: Chao Sun, Yaobo Liang, Yaming Yang, Shilin Xu, Tianmeng Yang, Yunhai Tong,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rankを組み込んだ新しいフレームワークであるRLRF4Recを紹介する。
- 参考スコア(独自算出の注目度): 33.54698201942643
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across diverse domains, prompting researchers to explore their potential for use in recommendation systems. Initial attempts have leveraged the exceptional capabilities of LLMs, such as rich knowledge and strong generalization through In-context Learning, which involves phrasing the recommendation task as prompts. Nevertheless, the performance of LLMs in recommendation tasks remains suboptimal due to a substantial disparity between the training tasks for LLMs and recommendation tasks and inadequate recommendation data during pre-training. This paper introduces RLRF4Rec, a novel framework integrating Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking(RLRF4Rec) with LLMs to address these challenges. Specifically, We first have the LLM generate inferred user preferences based on user interaction history, which is then used to augment traditional ID-based sequence recommendation models. Subsequently, we trained a reward model based on knowledge augmentation recommendation models to evaluate the quality of the reasoning knowledge from LLM. We then select the best and worst responses from the N samples to construct a dataset for LLM tuning. Finally, we design a structure alignment strategy with Direct Preference Optimization(DPO). We validate the effectiveness of RLRF4Rec through extensive experiments, demonstrating significant improvements in recommendation re-ranking metrics compared to baselines. This demonstrates that our approach significantly improves the capability of LLMs to respond to instructions within recommender systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な性能を示し、研究者はレコメンデーションシステムでの使用の可能性を探る。
最初の試みは、豊富な知識や、推薦タスクをプロンプトとして表現するインコンテキストラーニングによる強力な一般化など、LLMの例外的な能力を活用している。
にもかかわらず、レコメンデーションタスクにおけるLLMのパフォーマンスは、レコメンデーションタスクとレコメンデーションタスクのトレーニングタスクと、プレトレーニング中のレコメンデーションデータとの相違により、サブ最適のままである。
本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rank(RLRF4Rec)をLLMと統合した新しいフレームワークであるRLRF4Recを紹介する。
具体的には、まずLLMがユーザインタラクション履歴に基づいて推論されたユーザ嗜好を生成し、その後、従来のIDベースのシーケンスレコメンデーションモデルを拡張する。
その後,LLMからの推論知識の質を評価するため,知識強化推薦モデルに基づく報酬モデルを構築した。
次に,Nサンプルから最良かつ最悪の応答を選択し,LLMチューニングのためのデータセットを構築する。
最後に、直接優先度最適化(DPO)を用いた構造アライメント戦略を設計する。
本研究では,RLRF4Recの有効性を実験的に検証し,基準値と比較した場合の推奨基準の大幅な改善を示す。
提案手法は,レコメンデータシステム内の命令に応答するLLMの能力を大幅に向上することを示す。
関連論文リスト
- Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。
既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。
本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:48:36Z) - Enhancing High-order Interaction Awareness in LLM-based Recommender Model [3.7623606729515133]
本稿では,LLMベースのリコメンデータ(ELMRec)について述べる。
我々は、レコメンデーションのためのグラフ構築相互作用のLLM解釈を大幅に強化するために、単語全体の埋め込みを強化する。
ELMRecは、直接およびシーケンシャルなレコメンデーションの両方において、最先端(SOTA)メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-30T06:07:12Z) - Finetuning Large Language Model for Personalized Ranking [12.16551080986962]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
DMPO(Direct Multi-Preference Optimization)は、リコメンデーションタスクのギャップを埋め、LLMのアライメントを強化するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-05-25T08:36:15Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。