論文の概要: SPRec: Self-Play to Debias LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2412.09243v3
- Date: Thu, 06 Feb 2025 12:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.406457
- Title: SPRec: Self-Play to Debias LLM-based Recommendation
- Title(参考訳): SPRec: LLMベースのレコメンデーションの自己プレイ
- Authors: Chongming Gao, Ruijun Chen, Shuai Yuan, Kexin Huang, Yuanqing Yu, Xiangnan He,
- Abstract要約: 大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
- 参考スコア(独自算出の注目度): 23.875509546540904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have attracted significant attention in recommendation systems. Current work primarily applies supervised fine-tuning (SFT) to adapt the model for recommendation tasks. However, SFT on positive examples only limits the model's ability to align with user preference. To address this, researchers recently introduced Direct Preference Optimization (DPO), which explicitly aligns LLMs with user preferences using offline preference ranking data. However, we found that DPO inherently biases the model towards a few items, exacerbating the filter bubble issue and ultimately degrading user experience. In this paper, we propose SPRec, a novel self-play framework designed to mitigate over-recommendation and improve fairness without requiring additional data or manual intervention. In each self-play iteration, the model undergoes an SFT step followed by a DPO step, treating offline interaction data as positive samples and the predicted outputs from the previous iteration as negative samples. This effectively re-weights the DPO loss function using the model's logits, adaptively suppressing biased items. Extensive experiments on multiple real-world datasets demonstrate SPRec's effectiveness in enhancing recommendation accuracy and fairness. The implementation is available via https://github.com/RegionCh/SPRec
- Abstract(参考訳): 大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
現在の作業は主に、モデルにレコメンデーションタスクを適用するために教師付き微調整(SFT)を適用している。
しかし、肯定的な例におけるSFTは、モデルがユーザの好みに合わせている能力を制限しているだけである。
この問題に対処するため、研究者たちは先日、オフラインの優先度ランキングデータを使用して、LDMとユーザの嗜好を明示的に整合させるDirect Preference Optimization (DPO)を導入した。
しかし、DPOは本質的にいくつかの項目に偏り、フィルタバブルの問題を悪化させ、究極的にはユーザエクスペリエンスを低下させます。
本稿では、過剰勧告を緩和し、追加データや手動介入を必要とせずに公平性を向上する、新しいセルフプレイフレームワークであるSPRecを提案する。
各セルフプレイイテレーションにおいて、モデルはSFTステップに続いてDPOステップを実行し、オフラインインタラクションデータを正のサンプルとして扱い、前回のイテレーションからの予測出力を負のサンプルとして扱う。
これにより、モデルのロジットを使用してDPO損失関数を効果的に再重み付けし、偏りのある項目を適応的に抑制する。
複数の実世界のデータセットに対する大規模な実験は、推奨精度と公正性を向上するSPRecの有効性を示している。
実装はhttps://github.com/RegionCh/SPRecで利用可能である。
関連論文リスト
- Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model [20.623037493149507]
提案するPre-DPO(Pre-DPO)は,指導基準モデルを活用することにより,嗜好最適化性能を向上させる,シンプルで効果的なDPOベースのトレーニングパラダイムである。
AlpacaEval 2.0とArena-Hard v0.1ベンチマークの大規模な実験は、Pre-DPOがDPOとSimPOの両方のパフォーマンスを一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-04-22T12:39:30Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Preference Data [61.463946150106054]
Supervised Fine-tuning (SFT) と Prefery Optimization (PO) は、事前訓練された大規模言語モデル(LLM)を改善するための標準となっている。
本稿では、嗜好データを必要としない新しいアプローチであるDFTを紹介する。
i) 答えの識別可能性を明確にモデル化した微調整LDMの識別確率フレームワーク、(ii) この識別確率を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範囲な実験、そして、SFTよりも優れた性能を達成し、そうでなければ同等である。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift [21.16837827950466]
現在の選好最適化アルゴリズムは、モデリングにおける時間的選好のドリフトを考慮しない。
非定常直接選好最適化(NS-DPO)を提案する。
NS-DPO微調整LDMは非定常条件下では頑健であることを示す。
論文 参考訳(メタデータ) (2024-07-26T11:38:18Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。