論文の概要: Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders
- arxiv url: http://arxiv.org/abs/2604.22504v1
- Date: Fri, 24 Apr 2026 12:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.454802
- Title: Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders
- Title(参考訳): ハードネガティティブな形状:RL型LLMレコメンダの窓部分AUC最適化
- Authors: Wentao Shi, Qifan Wang, Chen Chen, Fei Liu, Dongfang Liu, Xu Liu, Wanli Ma, Junfeng Pan, Linhong Zhu, Fuli Feng,
- Abstract要約: ビームサーチの負のトレーニングは、ランダムな負のトレーニングよりも一貫して優れている。
ここでは,ウィンドウに偽陽性率(FPR)を制約し,Top-K$メトリクスとより直接整合させるウィンドウ付き部分AUC(WPAUC)を紹介する。
4つの実世界のデータセットの実験は、理論を検証し、一貫した最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 74.55181072260713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) effectively optimizes Large Language Model (LLM)-based recommenders by contrasting positive and negative items. Empirically, training with beam-search negatives consistently outperforms random negatives, yet the mechanism is not well understood. We address this gap by analyzing the induced optimization objective and show that: (i) Under binary reward feedback, optimizing LLM recommenders with Group Relative Policy Optimization (GRPO) is theoretically equivalent to maximizing the Area Under the ROC Curve (AUC), which is often misaligned with Top-$K$ recommendation; and (ii) Replacing random negatives with beam-search negatives reshapes the objective toward partial AUC, improving alignment with Top-$K$ metrics. Motivated by this perspective, we introduce Windowed Partial AUC (WPAUC), which constrains the false positive rate (FPR) to a window [$α,α+d$] to more directly align with Top-$K$ metrics. We further propose an efficient Threshold-Adjusted Windowed reweighting (TAWin) RL method for its optimization, enabling explicit control over the targeted Top-$K$ performance. Experiments on four real-world datasets validate the theory and deliver consistent state-of-the-art performance.
- Abstract(参考訳): 強化学習(RL)は,肯定的,否定的な項目を対比することにより,Large Language Model(LLM)ベースのレコメンデータを効果的に最適化する。
経験的に、ビームサーチの負のトレーニングはランダムな負よりも一貫して優れているが、そのメカニズムはよく理解されていない。
誘導最適化の目的を解析して、このギャップに対処する。
(i)二進的報酬フィードバックの下では、グループ相対政策最適化(GRPO)によるLLM勧告を最適化することは理論上はROC曲線(AUC)の下でのエリアの最大化と等価であり、しばしばトップ・ドル・レコメンデーションと不一致である。
(II)ビームサーチ陰性によるランダムな負の置き換えは、部分的なAUCに対する目的に反し、Top-K$メトリクスとの整合性を改善する。
この観点から、FPR(False positive rate)をウィンドウ[$α,α+d$]に制約し、Top-$K$メトリクスとより直接整合するウィンドウ部分AUC(WPAUC)を導入する。
さらに,最適化のためのThreshold-Adjusted Windowed Reweighting (TAWin) RL法を提案する。
4つの実世界のデータセットの実験は、理論を検証し、一貫した最先端のパフォーマンスを提供する。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。