論文の概要: RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking
- arxiv url: http://arxiv.org/abs/2410.05939v1
- Date: Tue, 08 Oct 2024 11:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:33:10.139506
- Title: RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking
- Title(参考訳): RLRF4Rec: Recsys Feedbackから強化されたリコメンデーションリグレードのための強化学習
- Authors: Chao Sun, Yaobo Liang, Yaming Yang, Shilin Xu, Tianmeng Yang, Yunhai Tong,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rankを組み込んだ新しいフレームワークであるRLRF4Recを紹介する。
- 参考スコア(独自算出の注目度): 33.54698201942643
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across diverse domains, prompting researchers to explore their potential for use in recommendation systems. Initial attempts have leveraged the exceptional capabilities of LLMs, such as rich knowledge and strong generalization through In-context Learning, which involves phrasing the recommendation task as prompts. Nevertheless, the performance of LLMs in recommendation tasks remains suboptimal due to a substantial disparity between the training tasks for LLMs and recommendation tasks and inadequate recommendation data during pre-training. This paper introduces RLRF4Rec, a novel framework integrating Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking(RLRF4Rec) with LLMs to address these challenges. Specifically, We first have the LLM generate inferred user preferences based on user interaction history, which is then used to augment traditional ID-based sequence recommendation models. Subsequently, we trained a reward model based on knowledge augmentation recommendation models to evaluate the quality of the reasoning knowledge from LLM. We then select the best and worst responses from the N samples to construct a dataset for LLM tuning. Finally, we design a structure alignment strategy with Direct Preference Optimization(DPO). We validate the effectiveness of RLRF4Rec through extensive experiments, demonstrating significant improvements in recommendation re-ranking metrics compared to baselines. This demonstrates that our approach significantly improves the capability of LLMs to respond to instructions within recommender systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な性能を示し、研究者はレコメンデーションシステムでの使用の可能性を探る。
最初の試みは、豊富な知識や、推薦タスクをプロンプトとして表現するインコンテキストラーニングによる強力な一般化など、LLMの例外的な能力を活用している。
にもかかわらず、レコメンデーションタスクにおけるLLMのパフォーマンスは、レコメンデーションタスクとレコメンデーションタスクのトレーニングタスクと、プレトレーニング中のレコメンデーションデータとの相違により、サブ最適のままである。
本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rank(RLRF4Rec)をLLMと統合した新しいフレームワークであるRLRF4Recを紹介する。
具体的には、まずLLMがユーザインタラクション履歴に基づいて推論されたユーザ嗜好を生成し、その後、従来のIDベースのシーケンスレコメンデーションモデルを拡張する。
その後,LLMからの推論知識の質を評価するため,知識強化推薦モデルに基づく報酬モデルを構築した。
次に,Nサンプルから最良かつ最悪の応答を選択し,LLMチューニングのためのデータセットを構築する。
最後に、直接優先度最適化(DPO)を用いた構造アライメント戦略を設計する。
本研究では,RLRF4Recの有効性を実験的に検証し,基準値と比較した場合の推奨基準の大幅な改善を示す。
提案手法は,レコメンデータシステム内の命令に応答するLLMの能力を大幅に向上することを示す。
関連論文リスト
- Enhancing High-order Interaction Awareness in LLM-based Recommender Model [3.7623606729515133]
本稿では,LLMベースのリコメンデータ(ELMRec)について述べる。
我々は、レコメンデーションのためのグラフ構築相互作用のLLM解釈を大幅に強化するために、単語全体の埋め込みを強化する。
ELMRecは、直接およびシーケンシャルなレコメンデーションの両方において、最先端(SOTA)メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-30T06:07:12Z) - Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Empowering Few-Shot Recommender Systems with Large Language Models --
Enhanced Representations [0.0]
大規模言語モデル(LLM)は、明示的なフィードバックベースのレコメンデータシステムで遭遇する少数のシナリオに対処するための、新たな洞察を提供する。
我々の研究は、LLMがレコメンデーターシステムに関わっていることの多面的側面を深く掘り下げるために、研究者に刺激を与えることができる。
論文 参考訳(メタデータ) (2023-12-21T03:50:09Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。