論文の概要: Listwise Preference Alignment Optimization for Tail Item Recommendation
- arxiv url: http://arxiv.org/abs/2507.02255v1
- Date: Thu, 03 Jul 2025 03:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.482367
- Title: Listwise Preference Alignment Optimization for Tail Item Recommendation
- Title(参考訳): タイル項目推薦のためのリストワイズ選好アライメント最適化
- Authors: Zihao Li, Chao Yang, Tong Zhang, Yakun Chen, Xianzhi Wang, Guandong Xu, Daoyi Dong,
- Abstract要約: ペアワイズ比較からリストワイズ比較までブラッドリー・テリーモデルを拡張するLPO4Recを提案する。
具体的には、明確な報酬モデルなしでより効率的で効果的なトレーニングを可能にするために、クローズドフォームの最適ポリシーを導出する。
3つの公開データセットに対する実験により、我々の手法は10の基準値よりも大きなマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 29.20780001894192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference alignment has achieved greater success on Large Language Models (LLMs) and drawn broad interest in recommendation research. Existing preference alignment methods for recommendation either require explicit reward modeling or only support pairwise preference comparison. The former directly increases substantial computational costs, while the latter hinders training efficiency on negative samples. Moreover, no existing effort has explored preference alignment solutions for tail-item recommendation. To bridge the above gaps, we propose LPO4Rec, which extends the Bradley-Terry model from pairwise comparison to listwise comparison, to improve the efficiency of model training. Specifically, we derive a closed form optimal policy to enable more efficient and effective training without explicit reward modeling. We also present an adaptive negative sampling and reweighting strategy to prioritize tail items during optimization and enhance performance in tail-item recommendations. Besides, we theoretically prove that optimizing the listwise preference optimization (LPO) loss is equivalent to maximizing the upper bound of the optimal reward. Our experiments on three public datasets show that our method outperforms 10 baselines by a large margin, achieving up to 50% performance improvement while reducing 17.9% GPU memory usage when compared with direct preference optimization (DPO) in tail-item recommendation. Our code is available at https://github.com/Yuhanleeee/LPO4Rec.
- Abstract(参考訳): 優先順位調整はLarge Language Models (LLMs)において大きな成功を収め、リコメンデーション研究に広く関心を寄せている。
既存のリコメンデーションのためのリコメンデーションアライメント手法は、明示的なリコメンデーションモデリングを必要とするか、ペアのリコメンデーション比較のみをサポートする。
前者は計算コストを直接的に増加させ、後者は負のサンプルの訓練効率を阻害する。
さらに、テール・イテム・レコメンデーションのためのリコメンデーション・アライメント・ソリューションも検討されていない。
上記のギャップを埋めるため、モデルトレーニングの効率を向上させるために、ペアワイズ比較からリストワイズ比較までブラッドリー・テリーモデルを拡張したLPO4Recを提案する。
具体的には、明確な報酬モデルなしでより効率的で効果的なトレーニングを可能にするために、クローズドフォームの最適ポリシーを導出する。
また、最適化時にテールアイテムを優先し、テールイテムレコメンデーションの性能を高めるための適応的な負サンプリングと再重み付け戦略を提案する。
さらに、リストワイズ選好最適化(LPO)損失の最適化が最適報酬の上限の最大化と等価であることを理論的に証明する。
3つの公開データセットに対する実験により,提案手法は10ベースラインを大きなマージンで上回り,最大50%のパフォーマンス向上を実現し,GPUメモリ使用率を17.9%削減した。
私たちのコードはhttps://github.com/Yuhanleeee/LPO4Rec.comで利用可能です。
関連論文リスト
- Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。
我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。
各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-19T04:31:56Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Reward Model Ensembles Help Mitigate Overoptimization [7.715463015544845]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
論文 参考訳(メタデータ) (2023-10-04T11:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。