論文の概要: MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.10784v1
- Date: Mon, 11 May 2026 16:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.974674
- Title: MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization
- Title(参考訳): MASS-DPO: 直接政策最適化のための多負アクティブサンプル選択
- Authors: Rohan Surana, Xintong Li, Sheldon Yu, Yiran Jenny Shen, Chuhan Wang, Tong Yu, Prithviraj Ammanabrolu, Jingbo Shang, Julian McAuley, Junda Wu,
- Abstract要約: 直接選好最適化(DPO)を拡張したPlackett--Luce(PL)モデルに基づくマルチ負の選好最適化
そこで本研究では,PL固有のフィッシャー情報目的を導出し,各プロンプト内のコンパクトで情報的な負の部分集合を選択するマルチ負のアクティブサンプル選択法であるMASS-DPOを紹介する。
MASS-DPOは、既存の手法を常に精度で上回り、リコール/NDCGとマージンベースの最適化のダイナミクスを改善し、かなり少ない負のアライメントを提供する。
- 参考スコア(独自算出の注目度): 66.81594613265833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-negative preference optimization under the Plackett--Luce (PL) model extends Direct Preference Optimization (DPO) by leveraging comparative signals across one preferred and multiple rejected responses. However, optimizing over large negative pools is costly, and many candidates contribute redundant gradients due to their similar effects on policy updates. We introduce MASS-DPO, a multi-negative active sample selection method that derives a PL-specific Fisher-information objective for selecting compact, informative negative subsets within each prompt. The resulting log-determinant objective selects negatives that contribute complementary information for policy updates, yielding compact subsets that retain the full pool's information while reducing redundancy. In practice, this favors negatives whose gradients cover different update directions, reducing redundant signal from near-duplicate candidates while preserving the most useful training information. Across four benchmarks spanning recommendation and multiple-choice QA and three model families, MASS-DPO consistently exceeds or matches existing methods in accuracy, improves Recall/NDCG and margin-based optimization dynamics, and delivers stronger alignment with substantially fewer negatives.
- Abstract(参考訳): Plackett--Luce (PL) モデルの下でのマルチ負の選好最適化は、1つの優先応答と複数の拒否応答に比較信号を活用することで直接選好最適化(DPO)を拡張する。
しかし、大きな負のプールを最適化するにはコストがかかり、多くの候補がポリシー更新に類似した影響により、冗長な勾配に寄与する。
そこで本研究では,PL固有のフィッシャー情報目的を導出し,各プロンプト内のコンパクトで情報的な負の部分集合を選択するマルチ負のアクティブサンプル選択法であるMASS-DPOを紹介する。
結果として得られる対数決定対象は、ポリシー更新に補完的な情報を提供するネガティブを選択し、完全なプールの情報を保持しながら冗長性を減少させるコンパクトなサブセットを生成する。
実際には、勾配が異なる更新方向をカバーし、最も有用なトレーニング情報を保持しながら、ほぼ重複した候補からの冗長な信号を減らすことを好む。
推奨と複数選択のQAと3つのモデルファミリにまたがる4つのベンチマークで、MASS-DPOは既存のメソッドを常に上回るか、精度でマッチングし、リコール/NDCGとマージンベースの最適化のダイナミクスを改善し、より小さな負の値でより強力なアライメントを提供する。
関連論文リスト
- Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE [7.609008983716641]
我々は、一般的なネガティブ選択戦略とDPOトレーニングとの相互作用を比較するために、マルチモーダルシーケンシャルレコメンデーションの実験を行う。
我々の中心的な発見は、決定論的ハードネガティブを動的トップK候補プールからのサンプリングに置き換えた単純な修正により、常にランク付け性能が向上することである。
論文 参考訳(メタデータ) (2026-03-31T04:49:32Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - On Negative-aware Preference Optimization for Recommendation [10.082739500992545]
LLMに基づくリコメンデーションにおいて、優先最適化のための拡張されたフレームワークであるNAPOを提案する。
NAPO は,(1) 負のサンプルのプールをメモリオーバーヘッドを伴わずに拡張する in-batch 負の共有,(2) 負のサンプルの信頼度に基づいてモデル更新を適応する dynamic reward margin adjust という2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-08-13T09:37:07Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。