論文の概要: SPRec: Self-Play to Debias LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2412.09243v3
- Date: Thu, 06 Feb 2025 12:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:29:19.016140
- Title: SPRec: Self-Play to Debias LLM-based Recommendation
- Title(参考訳): SPRec: LLMベースのレコメンデーションの自己プレイ
- Authors: Chongming Gao, Ruijun Chen, Shuai Yuan, Kexin Huang, Yuanqing Yu, Xiangnan He,
- Abstract要約: 大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
- 参考スコア(独自算出の注目度): 23.875509546540904
- License:
- Abstract: Large language models (LLMs) have attracted significant attention in recommendation systems. Current work primarily applies supervised fine-tuning (SFT) to adapt the model for recommendation tasks. However, SFT on positive examples only limits the model's ability to align with user preference. To address this, researchers recently introduced Direct Preference Optimization (DPO), which explicitly aligns LLMs with user preferences using offline preference ranking data. However, we found that DPO inherently biases the model towards a few items, exacerbating the filter bubble issue and ultimately degrading user experience. In this paper, we propose SPRec, a novel self-play framework designed to mitigate over-recommendation and improve fairness without requiring additional data or manual intervention. In each self-play iteration, the model undergoes an SFT step followed by a DPO step, treating offline interaction data as positive samples and the predicted outputs from the previous iteration as negative samples. This effectively re-weights the DPO loss function using the model's logits, adaptively suppressing biased items. Extensive experiments on multiple real-world datasets demonstrate SPRec's effectiveness in enhancing recommendation accuracy and fairness. The implementation is available via https://github.com/RegionCh/SPRec
- Abstract(参考訳): 大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
現在の作業は主に、モデルにレコメンデーションタスクを適用するために教師付き微調整(SFT)を適用している。
しかし、肯定的な例におけるSFTは、モデルがユーザの好みに合わせている能力を制限しているだけである。
この問題に対処するため、研究者たちは先日、オフラインの優先度ランキングデータを使用して、LDMとユーザの嗜好を明示的に整合させるDirect Preference Optimization (DPO)を導入した。
しかし、DPOは本質的にいくつかの項目に偏り、フィルタバブルの問題を悪化させ、究極的にはユーザエクスペリエンスを低下させます。
本稿では、過剰勧告を緩和し、追加データや手動介入を必要とせずに公平性を向上する、新しいセルフプレイフレームワークであるSPRecを提案する。
各セルフプレイイテレーションにおいて、モデルはSFTステップに続いてDPOステップを実行し、オフラインインタラクションデータを正のサンプルとして扱い、前回のイテレーションからの予測出力を負のサンプルとして扱う。
これにより、モデルのロジットを使用してDPO損失関数を効果的に再重み付けし、偏りのある項目を適応的に抑制する。
複数の実世界のデータセットに対する大規模な実験は、推奨精度と公正性を向上するSPRecの有効性を示している。
実装はhttps://github.com/RegionCh/SPRecで利用可能である。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift [21.16837827950466]
現在の選好最適化アルゴリズムは、モデリングにおける時間的選好のドリフトを考慮しない。
非定常直接選好最適化(NS-DPO)を提案する。
NS-DPO微調整LDMは非定常条件下では頑健であることを示す。
論文 参考訳(メタデータ) (2024-07-26T11:38:18Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。