論文の概要: On Softmax Direct Preference Optimization for Recommendation
- arxiv url: http://arxiv.org/abs/2406.09215v2
- Date: Fri, 14 Jun 2024 15:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:17:38.733845
- Title: On Softmax Direct Preference Optimization for Recommendation
- Title(参考訳): 勧告に対するソフトマックス直接選好最適化について
- Authors: Yuxin Chen, Junfei Tan, An Zhang, Zhengyi Yang, Leheng Sheng, Enzhi Zhang, Xiang Wang, Tat-Seng Chua,
- Abstract要約: 我々は,LMをベースとした推薦者が好む項目と好ましくない項目を区別するのを支援するために,ランキング情報をLMに挿入するソフトマックスDPOを提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
- 参考スコア(独自算出の注目度): 50.896117978746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (S-DPO) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has a side effect of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while mitigating the data likelihood decline issue of DPO. Our codes are available at https://github.com/chenyuxin1999/S-DPO.
- Abstract(参考訳): リコメンダシステムは、ユーザの好みデータに基づいて、パーソナライズされたランキングを予測することを目的としている。
言語モデル(LM)の台頭に伴い、LMベースの推薦者は、その豊富な世界知識と強力な推論能力のために広く研究されてきた。
LMベースのレコメンデータのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲットの応答として肯定的な項目とペアリングし、言語モデリングの損失を微調整する。
しかし、現在の目標は、好みデータを完全に活用できず、パーソナライズされたランキングタスクに最適化されていないため、LMベースのレコメンデータのパフォーマンスを損なう。
人選好アライメントにおける直接選好最適化(DPO)の現在の発展と、リコメンデーションにおけるソフトマックスロスの成功にインスパイアされた私たちは、ALMをベースとした推奨者が好む項目と負の項目を区別するのを助けるために、LMにランキング情報を注入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザ嗜好データに複数の負を組み込んで、軟質マックスサンプリング戦略に関連するLMベースのレコメンデータに適したDPO損失の代替版を考案する。
理論的には、S-DPOを負のサンプリングよりもソフトマックス損失で橋渡しし、ハードネガティブをマイニングする副作用があることを発見し、レコメンデーションタスクにおいてその例外的な能力を保証する。
実世界の3つのデータセットで実施された広範な実験は、S-DPOの優位性を示し、ユーザの好みを効果的にモデル化し、DPOのデータ可能性低下問題を緩和しつつ、推奨性能をさらに向上させる。
私たちのコードはhttps://github.com/chenyuxin 1999/S-DPO.comで公開されています。
関連論文リスト
- Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。
PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。
これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文 参考訳(メタデータ) (2024-10-17T01:02:04Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。