Fugu-MT 論文翻訳(概要): On Softmax Direct Preference Optimization for Recommendation

論文の概要: On Softmax Direct Preference Optimization for Recommendation

arxiv url: http://arxiv.org/abs/2406.09215v3
Date: Thu, 07 Nov 2024 18:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.592329
Title: On Softmax Direct Preference Optimization for Recommendation
Title（参考訳）: 勧告に対するソフトマックス直接選好最適化について
Authors: Yuxin Chen, Junfei Tan, An Zhang, Zhengyi Yang, Leheng Sheng, Enzhi Zhang, Xiang Wang, Tat-Seng Chua,
Abstract要約: そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
参考スコア（独自算出の注目度）: 50.896117978746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (S-DPO) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, which is extended from the traditional full-ranking Plackett-Luce (PL) model to partial rankings and connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has an inherent benefit of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while providing better rewards for preferred items. Our codes are available at https://github.com/chenyuxin1999/S-DPO.
Abstract（参考訳）: リコメンダシステムは、ユーザの好みデータに基づいて、パーソナライズされたランキングを予測することを目的としている。言語モデル(LM)の台頭に伴い、LMベースの推薦者は、その豊富な世界知識と強力な推論能力のために広く研究されてきた。 LMベースのレコメンデータのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲットの応答として肯定的な項目とペアリングし、言語モデリングの損失を微調整する。しかし、現在の目標は、好みデータを完全に活用できず、パーソナライズされたランキングタスクに最適化されていないため、LMベースのレコメンデータのパフォーマンスを損なう。人選好アライメントにおける直接選好最適化(DPO)の現在の発展と、リコメンデーションにおけるソフトマックスロスの成功にインスパイアされた私たちは、ALMをベースとした推奨者が好む項目と負の項目を区別するのを助けるために、LMにランキング情報を注入するソフトマックスDPO(S-DPO)を提案する。具体的には、ユーザの嗜好データに複数の負を組み込んで、従来のフルグレードのPlackett-Luce(PL)モデルから部分的なランク付けに拡張され、ソフトマックスサンプリング戦略に結びついたLMベースのレコメンデータに適したDPO損失の代替版を考案する。理論的には、S-DPOを負のサンプリングよりもソフトマックス損失で橋渡しし、それが推奨タスクにおける例外的な能力を保証するハードネガティブをマイニングする固有の利点があることを見出した。実世界の3つのデータセットで実施された広範な実験は、S-DPOの優位性を示し、ユーザの好みを効果的にモデル化し、推奨性能をさらに向上させ、好む項目に対してより良い報酬を提供する。私たちのコードはhttps://github.com/chenyuxin 1999/S-DPO.comで公開されています。

関連論文リスト

Evaluating Position Bias in Large Language Model Recommendations [3.430780143519032]
大規模言語モデル(LLM)は、リコメンデーションタスクのための汎用ツールとして、ますます研究されている。 LLMをベースとした推薦モデルは位置バイアスに悩まされ、その場合、プロンプト内の候補項目の順序がLLMの推薦に不均等に影響を及ぼす可能性がある。本稿では,LLMレコメンデーションモデルにおける位置バイアスを軽減するための新たなプロンプト戦略であるRightingをIterative Selection経由で導入する。
論文参考訳（メタデータ） (2025-08-04T03:30:26Z)
Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation [51.08869388483333]
大規模言語モデル(LLM)は、次のPOI(point-of-interest)レコメンデーションタスクに採用されている。次回のPOI勧告のための強化微調整フレームワークであるRefine-POIを提案する。
論文参考訳（メタデータ） (2025-06-19T02:51:10Z)
MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文参考訳（メタデータ） (2024-12-13T14:18:58Z)
Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。 PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文参考訳（メタデータ） (2024-10-17T01:02:04Z)
RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。 RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-10-16T12:54:34Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文参考訳（メタデータ） (2024-10-08T11:42:37Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。