Fugu-MT 論文翻訳(概要): Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO

論文の概要: Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO

arxiv url: http://arxiv.org/abs/2505.23316v1
Date: Thu, 29 May 2025 10:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.809244
Title: Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO
Title（参考訳）: 逆フィードバック型に対する確率的選好最適化:DPOの分解的視点
Authors: Kaiyang Guo, Yinchuan Li, Zhitang Chen,
Abstract要約: 我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。 PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
参考スコア（独自算出の注目度）: 19.5712961932773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Direct alignment methods typically optimize large language models (LLMs) by contrasting the likelihoods of preferred versus dispreferred responses. While effective in steering LLMs to match relative preference, these methods are frequently noted for decreasing the absolute likelihoods of example responses. As a result, aligned models tend to generate outputs that deviate from the expected patterns, exhibiting reward-hacking effect even without a reward model. This undesired consequence exposes a fundamental limitation in contrastive alignment, which we characterize as likelihood underdetermination. In this work, we revisit direct preference optimization (DPO) -- the seminal direct alignment method -- and demonstrate that its loss theoretically admits a decomposed reformulation. The reformulated loss not only broadens applicability to a wider range of feedback types, but also provides novel insights into the underlying cause of likelihood underdetermination. Specifically, the standard DPO implementation implicitly oversimplifies a regularizer in the reformulated loss, and reinstating its complete version effectively resolves the underdetermination issue. Leveraging these findings, we introduce PRoximalized PReference Optimization (PRO), a unified method to align with diverse feeback types, eliminating likelihood underdetermination through an efficient approximation of the complete regularizer. Comprehensive experiments show the superiority of PRO over existing methods in scenarios involving pairwise, binary and scalar feedback.
Abstract（参考訳）: 直接アライメント法は通常、好ましくない応答と好ましくない応答の確率を対比して、大きな言語モデル(LLM)を最適化する。 LLMを相対的な選好に合わせるのに効果的であるが、これらの手法はサンプル応答の絶対可能性の低下にしばしば注目されている。その結果、アライメントモデルは、期待するパターンから逸脱する出力を生成し、報酬モデルなしでも報酬ハッキング効果を示す傾向にある。この望ましくない結果が、コントラスト的なアライメントの基本的な制限を露呈する。本研究では, 直接選好最適化 (DPO) をセミナルな直接アライメント法として再検討し, その損失が分解された再構成を理論的に認めることを示す。修正された損失は、幅広いフィードバックタイプに適用可能性を広げるだけでなく、潜在的な過小評価の原因に関する新たな洞察を与える。具体的には、標準DPO実装は、変更された損失の正則化を暗黙的に過度に単純化し、その完全なバージョンを復活させることで、過小判定問題を効果的に解決する。これらの知見を活かしたPRO(Proximalized PReference Optimization)を導入し,全正則化器の効率的な近似による過小判定の可能性を排除した。総合的な実験は、ペア、バイナリ、スカラーフィードバックを含むシナリオにおいて、既存のメソッドよりもPROの方が優れていることを示す。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。 DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文参考訳（メタデータ） (2025-06-09T07:11:01Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文参考訳（メタデータ） (2024-11-12T07:09:44Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。また,損失関数の設計を支援する理論的正当性も提供する。
論文参考訳（メタデータ） (2023-06-04T01:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。