論文の概要: Principled Foundations for Preference Optimization
- arxiv url: http://arxiv.org/abs/2507.07855v1
- Date: Thu, 10 Jul 2025 15:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.465587
- Title: Principled Foundations for Preference Optimization
- Title(参考訳): 優先最適化のための原則的基礎
- Authors: Wenxuan Zhou, Shujian Zhang, Brice Magdalou, John Lambert, Ehsan Amid, Richard Nock, Andrew Hard,
- Abstract要約: 直接選好最適化(DPO)はML文脈における2つの主要な理論間の関係の非常に特異な形式であることを示す。
この関係は、サヴェージの損失の全てと、このレベルの一般性の優先のために確立されている。
- 参考スコア(独自算出の注目度): 40.552966370393285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show that direct preference optimization (DPO) is a very specific form of a connection between two major theories in the ML context of learning from preferences: loss functions (Savage) and stochastic choice (Doignon-Falmagne and Machina). The connection is established for all of Savage's losses and at this level of generality, (i) it includes support for abstention on the choice theory side, (ii) it includes support for non-convex objectives on the ML side, and (iii) it allows to frame for free some notable extensions of the DPO setting, including margins and corrections for length. Getting to understand how DPO operates from a general principled perspective is crucial because of the huge and diverse application landscape of models, because of the current momentum around DPO, but also -- and importantly -- because many state of the art variations on DPO definitely occupy a small region of the map that we cover. It also helps to understand the pitfalls of departing from this map, and figure out workarounds.
- Abstract(参考訳): 本稿では、直接選好最適化 (DPO) は、損失関数 (Savage) と確率選択 (Doignon-Falmagne と Machina) というML文脈における2つの主要な理論間の関係の非常に特異な形式であることを示す。
この接続はサヴェージの損失の全てと、このレベルの一般性のために確立されている。
一 選択論側の棄権を支持すること。
(二)ML側の非凸目的のサポート、及び
(iii)DPO設定のいくつかの顕著な拡張を自由にフレーム化でき、例えば長さのマージンや補正が可能である。
DPOが一般的な原則的な視点からどのように機能するかを理解することは、DPOを取り巻く現在の勢いの故に、非常に多様で多様な応用状況のために不可欠であると同時に、DPOの最先端のバリエーションの多くが、私たちがカバーしている地図の小さな領域を確実に占めているため、重要なことです。
また、このマップから出発する際の落とし穴を理解し、回避策を見つけるのにも役立ちます。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
このボトルネックに対処するため、我々はパーセプション・アウェア・ポリシー最適化(PAPO)を提案する。
PAPOはモデルに対して、完全に内部の監視信号から、推論を学習しながら知覚することを学ぶことを奨励する。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - Preference Optimization by Estimating the Ratio of the Data Distribution [12.378291609381677]
本稿では,比例マッチングのためのBregman preference Optimization (BPO)を提案する。
BPO は DPO を特別な場合として仮定し、すべてのインスタンスに対して tractable form を提供する。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
論文 参考訳(メタデータ) (2025-05-26T07:10:53Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - MallowsPO: Fine-Tune Your LLM with Preference Dispersions [9.697663437292848]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習を改善するための一般的なアプローチとして現れている。
Mallowsの選好ランク理論に触発されて、我々は新しいアプローチであるMallowsPOを開発した。
このアプローチの際立った特徴は、人選好のプロンプトへの分散を反映する分散指標である。
論文 参考訳(メタデータ) (2024-05-23T18:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。