論文の概要: Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO
- arxiv url: http://arxiv.org/abs/2505.23316v1
- Date: Thu, 29 May 2025 10:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.809244
- Title: Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO
- Title(参考訳): 逆フィードバック型に対する確率的選好最適化:DPOの分解的視点
- Authors: Kaiyang Guo, Yinchuan Li, Zhitang Chen,
- Abstract要約: 我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。
PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
- 参考スコア(独自算出の注目度): 19.5712961932773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct alignment methods typically optimize large language models (LLMs) by contrasting the likelihoods of preferred versus dispreferred responses. While effective in steering LLMs to match relative preference, these methods are frequently noted for decreasing the absolute likelihoods of example responses. As a result, aligned models tend to generate outputs that deviate from the expected patterns, exhibiting reward-hacking effect even without a reward model. This undesired consequence exposes a fundamental limitation in contrastive alignment, which we characterize as likelihood underdetermination. In this work, we revisit direct preference optimization (DPO) -- the seminal direct alignment method -- and demonstrate that its loss theoretically admits a decomposed reformulation. The reformulated loss not only broadens applicability to a wider range of feedback types, but also provides novel insights into the underlying cause of likelihood underdetermination. Specifically, the standard DPO implementation implicitly oversimplifies a regularizer in the reformulated loss, and reinstating its complete version effectively resolves the underdetermination issue. Leveraging these findings, we introduce PRoximalized PReference Optimization (PRO), a unified method to align with diverse feeback types, eliminating likelihood underdetermination through an efficient approximation of the complete regularizer. Comprehensive experiments show the superiority of PRO over existing methods in scenarios involving pairwise, binary and scalar feedback.
- Abstract(参考訳): 直接アライメント法は通常、好ましくない応答と好ましくない応答の確率を対比して、大きな言語モデル(LLM)を最適化する。
LLMを相対的な選好に合わせるのに効果的であるが、これらの手法はサンプル応答の絶対可能性の低下にしばしば注目されている。
その結果、アライメントモデルは、期待するパターンから逸脱する出力を生成し、報酬モデルなしでも報酬ハッキング効果を示す傾向にある。
この望ましくない結果が、コントラスト的なアライメントの基本的な制限を露呈する。
本研究では, 直接選好最適化 (DPO) をセミナルな直接アライメント法として再検討し, その損失が分解された再構成を理論的に認めることを示す。
修正された損失は、幅広いフィードバックタイプに適用可能性を広げるだけでなく、潜在的な過小評価の原因に関する新たな洞察を与える。
具体的には、標準DPO実装は、変更された損失の正則化を暗黙的に過度に単純化し、その完全なバージョンを復活させることで、過小判定問題を効果的に解決する。
これらの知見を活かしたPRO(Proximalized PReference Optimization)を導入し,全正則化器の効率的な近似による過小判定の可能性を排除した。
総合的な実験は、ペア、バイナリ、スカラーフィードバックを含むシナリオにおいて、既存のメソッドよりもPROの方が優れていることを示す。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。