論文の概要: On Negative-aware Preference Optimization for Recommendation
- arxiv url: http://arxiv.org/abs/2508.09653v1
- Date: Wed, 13 Aug 2025 09:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.838508
- Title: On Negative-aware Preference Optimization for Recommendation
- Title(参考訳): レコメンデーションのためのネガティブ・アウェアな選好最適化について
- Authors: Chenlu Ding, Daoxuan Liu, Jiancan Wu, Xingyu Hu, Junkang Wu, Haitao Wang, Yongkang Wang, Xingxing Wang, Xiang Wang,
- Abstract要約: LLMに基づくリコメンデーションにおいて、優先最適化のための拡張されたフレームワークであるNAPOを提案する。
NAPO は,(1) 負のサンプルのプールをメモリオーバーヘッドを伴わずに拡張する in-batch 負の共有,(2) 負のサンプルの信頼度に基づいてモデル更新を適応する dynamic reward margin adjust という2つの重要なイノベーションを導入している。
- 参考スコア(独自算出の注目度): 10.082739500992545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommendation systems leverage user interaction data to suggest relevant items while filtering out irrelevant (negative) ones. The rise of large language models (LLMs) has garnered increasing attention for their potential in recommendation tasks. However, existing methods for optimizing LLM-based recommenders face challenges in effectively utilizing negative samples. Simply integrating large numbers of negative samples can improve ranking accuracy and mitigate popularity bias but often leads to increased computational overhead and memory costs. Additionally, current approaches fail to account for the varying informativeness of negative samples, leading to suboptimal optimization performance. To address these issues, we propose NAPO (\textbf{N}egative-\textbf{A}ware \textbf{P}reference \textbf{O}ptimization), an enhanced framework for preference optimization in LLM-based recommendation. NAPO introduces two key innovations: (1) in-batch negative sharing, which expands the pool of negative samples without additional memory overhead, and (2) dynamic reward margin adjustment, which adapts model updates based on the confidence of negative samples. Extensive experiments on three public datasets demonstrate that NAPO outperforms existing methods in both recommendation accuracy and popularity bias reduction.
- Abstract(参考訳): レコメンデーションシステムは、ユーザインタラクションデータを利用して、無関係な(否定的な)項目をフィルタリングしながら、関連する項目を提案する。
大規模言語モデル(LLM)の台頭は、リコメンデーションタスクにおける可能性に対する関心が高まっている。
しかし,LLMをベースとしたリコメンデータを最適化する既存の手法は,負のサンプルを効果的に活用する上で課題に直面している。
大量の負のサンプルを統合するだけで、ランキングの精度を改善し、人気バイアスを軽減することができるが、しばしば計算オーバーヘッドとメモリコストが増加する。
さらに、現在のアプローチでは、陰性サンプルの様々な情報性を考慮することができず、最適化性能が最適以下になる。
これらの問題に対処するために, NAPO (\textbf{N}egative-\textbf{A}ware \textbf{P}reference \textbf{O}ptimization) を提案する。
NAPO は,(1) 負のサンプルのプールをメモリオーバーヘッドを伴わずに拡張する in-batch 負の共有,(2) 負のサンプルの信頼度に基づいてモデル更新を適応する dynamic reward margin adjust という2つの重要なイノベーションを導入している。
3つの公開データセットに対する大規模な実験により、NAPOは推奨精度と人気バイアス低減の両方で既存の手法より優れていることが示された。
関連論文リスト
- Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。