論文の概要: On Softmax Direct Preference Optimization for Recommendation
- arxiv url: http://arxiv.org/abs/2406.09215v3
- Date: Thu, 07 Nov 2024 18:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:14.898891
- Title: On Softmax Direct Preference Optimization for Recommendation
- Title(参考訳): 勧告に対するソフトマックス直接選好最適化について
- Authors: Yuxin Chen, Junfei Tan, An Zhang, Zhengyi Yang, Leheng Sheng, Enzhi Zhang, Xiang Wang, Tat-Seng Chua,
- Abstract要約: そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
- 参考スコア(独自算出の注目度): 50.896117978746
- License:
- Abstract: Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (S-DPO) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, which is extended from the traditional full-ranking Plackett-Luce (PL) model to partial rankings and connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has an inherent benefit of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while providing better rewards for preferred items. Our codes are available at https://github.com/chenyuxin1999/S-DPO.
- Abstract(参考訳): リコメンダシステムは、ユーザの好みデータに基づいて、パーソナライズされたランキングを予測することを目的としている。
言語モデル(LM)の台頭に伴い、LMベースの推薦者は、その豊富な世界知識と強力な推論能力のために広く研究されてきた。
LMベースのレコメンデータのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲットの応答として肯定的な項目とペアリングし、言語モデリングの損失を微調整する。
しかし、現在の目標は、好みデータを完全に活用できず、パーソナライズされたランキングタスクに最適化されていないため、LMベースのレコメンデータのパフォーマンスを損なう。
人選好アライメントにおける直接選好最適化(DPO)の現在の発展と、リコメンデーションにおけるソフトマックスロスの成功にインスパイアされた私たちは、ALMをベースとした推奨者が好む項目と負の項目を区別するのを助けるために、LMにランキング情報を注入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、従来のフルグレードのPlackett-Luce(PL)モデルから部分的なランク付けに拡張され、ソフトマックスサンプリング戦略に結びついたLMベースのレコメンデータに適したDPO損失の代替版を考案する。
理論的には、S-DPOを負のサンプリングよりもソフトマックス損失で橋渡しし、それが推奨タスクにおける例外的な能力を保証するハードネガティブをマイニングする固有の利点があることを見出した。
実世界の3つのデータセットで実施された広範な実験は、S-DPOの優位性を示し、ユーザの好みを効果的にモデル化し、推奨性能をさらに向上させ、好む項目に対してより良い報酬を提供する。
私たちのコードはhttps://github.com/chenyuxin 1999/S-DPO.comで公開されています。
関連論文リスト
- Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。
PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。
これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文 参考訳(メタデータ) (2024-10-17T01:02:04Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation [21.769969074938142]
EXP3RTは、ユーザとアイテムレビューに含まれるリッチな好み情報を活用するために設計された、LLMベースの新しいレコメンデータである。
詳細なステップバイステップの推論と予測された評価を生成する。
実験の結果、EXP3RTは評価予測と候補項目の双方において、トップkレコメンデーションにおいて既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-12T16:39:03Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。