論文の概要: Direct Preference Optimization for LLM-Enhanced Recommendation Systems
- arxiv url: http://arxiv.org/abs/2410.05939v2
- Date: Wed, 02 Apr 2025 06:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:15:25.758631
- Title: Direct Preference Optimization for LLM-Enhanced Recommendation Systems
- Title(参考訳): LLM強化レコメンデーションシステムの直接選好最適化
- Authors: Chao Sun, Yaobo Liang, Yaming Yang, Shilin Xu, Tianmeng Yang, Yunhai Tong,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。
我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。
大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 33.54698201942643
- License:
- Abstract: Large Language Models (LLMs) have exhibited remarkable performance across a wide range of domains, motivating research into their potential for recommendation systems. Early efforts have leveraged LLMs' rich knowledge and strong generalization capabilities via in-context learning, where recommendation tasks are framed as prompts. However, LLM performance in recommendation scenarios remains limited due to the mismatch between their pretraining objectives and recommendation tasks, as well as the lack of recommendation-specific data during pretraining. To address these challenges, we propose DPO4Rec, a novel framework that integrates Direct Preference Optimization (DPO) into LLM-enhanced recommendation systems. First, we prompt the LLM to infer user preferences from historical interactions, which are then used to augment traditional ID-based sequential recommendation models. Next, we train a reward model based on knowledge-augmented recommendation architectures to assess the quality of LLM-generated reasoning. Using this, we select the highest- and lowest-ranked responses from N samples to construct a dataset for LLM fine-tuning. Finally, we apply a structure alignment strategy via DPO to align the LLM's outputs with desirable recommendation behavior. Extensive experiments show that DPO4Rec significantly improves re-ranking performance over strong baselines, demonstrating enhanced instruction-following capabilities of LLMs in recommendation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示し、レコメンデーションシステムの可能性の研究を動機付けている。
初期の取り組みでは、LLMの豊富な知識と強力な一般化能力をコンテキスト内学習を通じて活用しており、推薦タスクはプロンプトとしてフレーム化されている。
しかし,レコメンデーションシナリオにおけるLLMのパフォーマンスは,プレトレーニング対象とレコメンデーションタスクのミスマッチや,事前トレーニング中にレコメンデーション固有のデータが欠如しているため,依然として制限されている。
これらの課題に対処するため、DPO(Direct Preference Optimization)をLLM強化レコメンデーションシステムに統合する新しいフレームワークであるDPO4Recを提案する。
まず、従来のIDベースのシーケンシャルレコメンデーションモデルの拡張に使用される履歴インタラクションからユーザの好みを推測するよう、LCMに促す。
次に,LLM生成推論の品質を評価するために,知識付加型レコメンデーションアーキテクチャに基づく報奨モデルを訓練する。
これを用いて、Nサンプルから最上位および最下位の応答を選択し、LLM微調整のためのデータセットを構築する。
最後に、DPOによる構造アライメント戦略を適用し、LLMの出力を望ましいレコメンデーション動作と整合させる。
大規模な実験により、DPO4Recは強力なベースラインよりも性能が大幅に向上し、レコメンデーションタスクにおけるLLMの命令追従能力が向上した。
関連論文リスト
- Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。
既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。
本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:48:36Z) - Enhancing High-order Interaction Awareness in LLM-based Recommender Model [3.7623606729515133]
本稿では,LLMベースのリコメンデータ(ELMRec)について述べる。
我々は、レコメンデーションのためのグラフ構築相互作用のLLM解釈を大幅に強化するために、単語全体の埋め込みを強化する。
ELMRecは、直接およびシーケンシャルなレコメンデーションの両方において、最先端(SOTA)メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-30T06:07:12Z) - Finetuning Large Language Model for Personalized Ranking [12.16551080986962]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
DMPO(Direct Multi-Preference Optimization)は、リコメンデーションタスクのギャップを埋め、LLMのアライメントを強化するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-05-25T08:36:15Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。