Fugu-MT 論文翻訳(概要): On Negative-aware Preference Optimization for Recommendation

論文の概要: On Negative-aware Preference Optimization for Recommendation

arxiv url: http://arxiv.org/abs/2508.09653v1
Date: Wed, 13 Aug 2025 09:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-14 20:42:00.838508
Title: On Negative-aware Preference Optimization for Recommendation
Title（参考訳）: レコメンデーションのためのネガティブ・アウェアな選好最適化について
Authors: Chenlu Ding, Daoxuan Liu, Jiancan Wu, Xingyu Hu, Junkang Wu, Haitao Wang, Yongkang Wang, Xingxing Wang, Xiang Wang,
Abstract要約: LLMに基づくリコメンデーションにおいて、優先最適化のための拡張されたフレームワークであるNAPOを提案する。 NAPO は,(1) 負のサンプルのプールをメモリオーバーヘッドを伴わずに拡張する in-batch 負の共有,(2) 負のサンプルの信頼度に基づいてモデル更新を適応する dynamic reward margin adjust という2つの重要なイノベーションを導入している。
参考スコア（独自算出の注目度）: 10.082739500992545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recommendation systems leverage user interaction data to suggest relevant items while filtering out irrelevant (negative) ones. The rise of large language models (LLMs) has garnered increasing attention for their potential in recommendation tasks. However, existing methods for optimizing LLM-based recommenders face challenges in effectively utilizing negative samples. Simply integrating large numbers of negative samples can improve ranking accuracy and mitigate popularity bias but often leads to increased computational overhead and memory costs. Additionally, current approaches fail to account for the varying informativeness of negative samples, leading to suboptimal optimization performance. To address these issues, we propose NAPO (\textbf{N}egative-\textbf{A}ware \textbf{P}reference \textbf{O}ptimization), an enhanced framework for preference optimization in LLM-based recommendation. NAPO introduces two key innovations: (1) in-batch negative sharing, which expands the pool of negative samples without additional memory overhead, and (2) dynamic reward margin adjustment, which adapts model updates based on the confidence of negative samples. Extensive experiments on three public datasets demonstrate that NAPO outperforms existing methods in both recommendation accuracy and popularity bias reduction.
Abstract（参考訳）: レコメンデーションシステムは、ユーザインタラクションデータを利用して、無関係な(否定的な)項目をフィルタリングしながら、関連する項目を提案する。大規模言語モデル(LLM)の台頭は、リコメンデーションタスクにおける可能性に対する関心が高まっている。しかし,LLMをベースとしたリコメンデータを最適化する既存の手法は,負のサンプルを効果的に活用する上で課題に直面している。大量の負のサンプルを統合するだけで、ランキングの精度を改善し、人気バイアスを軽減することができるが、しばしば計算オーバーヘッドとメモリコストが増加する。さらに、現在のアプローチでは、陰性サンプルの様々な情報性を考慮することができず、最適化性能が最適以下になる。これらの問題に対処するために, NAPO (\textbf{N}egative-\textbf{A}ware \textbf{P}reference \textbf{O}ptimization) を提案する。 NAPO は,(1) 負のサンプルのプールをメモリオーバーヘッドを伴わずに拡張する in-batch 負の共有,(2) 負のサンプルの信頼度に基づいてモデル更新を適応する dynamic reward margin adjust という2つの重要なイノベーションを導入している。 3つの公開データセットに対する大規模な実験により、NAPOは推奨精度と人気バイアス低減の両方で既存の手法より優れていることが示された。

論文の概要: On Negative-aware Preference Optimization for Recommendation

関連論文リスト