論文の概要: Preference Optimization by Estimating the Ratio of the Data Distribution
- arxiv url: http://arxiv.org/abs/2505.19601v1
- Date: Mon, 26 May 2025 07:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.233751
- Title: Preference Optimization by Estimating the Ratio of the Data Distribution
- Title(参考訳): データ分布比の推定による選好最適化
- Authors: Yeongmin Kim, Heesun Bae, Byeonghu Na, Il-Chul Moon,
- Abstract要約: 本稿では,比例マッチングのためのBregman preference Optimization (BPO)を提案する。
BPO は DPO を特別な場合として仮定し、すべてのインスタンスに対して tractable form を提供する。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
- 参考スコア(独自算出の注目度): 12.378291609381677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct preference optimization (DPO) is widely used as a simple and stable method for aligning large language models (LLMs) with human preferences. This paper investigates a generalized DPO loss that enables a policy model to match the target policy from a likelihood ratio estimation perspective. The ratio of the target policy provides a unique identification of the policy distribution without relying on reward models or partition functions. This allows the generalized loss to retain both simplicity and theoretical guarantees, which prior work such as $f$-PO fails to achieve simultaneously. We propose Bregman preference optimization (BPO), a generalized framework for ratio matching that provides a family of objective functions achieving target policy optimality. BPO subsumes DPO as a special case and offers tractable forms for all instances, allowing implementation with a few lines of code. We further develop scaled Basu's power divergence (SBA), a gradient scaling method that can be used for BPO instances. The BPO framework complements other DPO variants and is applicable to target policies defined by these variants. In experiments, unlike other probabilistic loss extensions such as $f$-DPO or $f$-PO, which exhibit a trade-off between generation fidelity and diversity, instances of BPO improve both win rate and entropy compared with DPO. When applied to Llama-3-Instruct-8B, BPO achieves state-of-the-art performance among Llama-3-8B backbones, with a 55.9\% length-controlled win rate on AlpacaEval2.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模言語モデル(LLM)を人間の選好と整合させるシンプルで安定した手法として広く用いられている。
本稿では,政策モデルが目標方針と一致できる汎用DPO損失について,確率比推定の観点から検討する。
対象ポリシの比率は、報酬モデルやパーティション関数に頼ることなく、ポリシー分布のユニークな識別を提供する。
これにより、一般化された損失は、$f$-POのような以前の作業が同時に達成できない単純さと理論的保証の両方を維持することができる。
本稿では,Bregman preference Optimization (BPO)を提案する。BPOは,目標政策の最適性を達成するための目的関数のファミリーを提供する,比率マッチングのための一般化されたフレームワークである。
BPOは特別なケースとしてDPOを仮定し、すべてのインスタンスにプル可能なフォームを提供し、数行のコードで実装できる。
さらに,BPOインスタンスに使用可能な勾配スケーリング手法であるSBA(Scalated Basu's Power divergence)を開発した。
BPOフレームワークは、他のDPO変種を補完し、これらの変種によって定義されたターゲットポリシーに適用できる。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、生成の忠実度と多様性の間のトレードオフを示すが、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
Llama-3-Instruct-8Bに適用した場合、BPOはAlpacaEval2で55.9%の勝利率で、Llama-3-8Bバックボーンの最先端性能を達成する。
関連論文リスト
- Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。