論文の概要: BPO: Revisiting Preference Modeling in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.03557v1
- Date: Wed, 04 Jun 2025 04:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.147908
- Title: BPO: Revisiting Preference Modeling in Direct Preference Optimization
- Title(参考訳): BPO:直接選好最適化における選好モデルの再検討
- Authors: Lin Sun, Chuang Liu, Peng Liu, Bingyang Li, Weijia Lu, Ning Wu,
- Abstract要約: DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
- 参考スコア(独自算出の注目度): 13.243174453617064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) have emerged as a popular method for aligning Large Language Models (LLMs) with human preferences. While DPO effectively preserves the relative ordering between chosen and rejected responses through pairwise ranking losses, it often neglects absolute reward magnitudes. This oversight can decrease the likelihood of chosen responses and increase the risk of generating out-of-distribution responses, leading to poor performance. We term this issue Degraded Chosen Responses (DCR).To address this issue, we propose Balanced Preference Optimization (BPO), a novel framework that dynamically balances the optimization of chosen and rejected responses through two key components: balanced reward margin and gap adaptor. Unlike previous methods, BPO can fundamentally resolve DPO's DCR issue, without introducing additional constraints to the loss function. Experimental results on multiple mathematical reasoning tasks show that BPO significantly outperforms DPO, improving accuracy by +10.1% with Llama-3.1-8B-Instruct (18.8% to 28.9%) and +11.7% with Qwen2.5-Math-7B (35.0% to 46.7%). It also surpasses DPO variants by +3.6% over IPO (43.1%), +5.0% over SLiC (41.7%), and +3.1% over Cal-DPO (43.6%) on the same model. Remarkably, our algorithm requires only a single line of code modification, making it simple to implement and fully compatible with existing DPO-based frameworks.
- Abstract(参考訳): DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みと整合させる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対的な順序を効果的に保持するが、絶対的な報酬等級を無視することが多い。
この監視により、選択された応答の可能性が減少し、配布外応答が発生するリスクが増大し、パフォーマンスが低下する可能性がある。
この問題をDCR(Degraded Chosen Responses)と呼ぶ。
この問題に対処するため,バランスド・リターン・マージンとギャップ・アダプタ(ギャップ・アダプタ)という2つの主要なコンポーネントを通じて,選択された応答と拒否された応答の最適化を動的にバランスする新しいフレームワークであるバランスド・リフレクション・最適化(BPO)を提案する。
従来の方法とは異なり、BPOは損失関数にさらなる制約を加えることなく、DPOのDCR問題を根本的に解決することができる。
複数の数学的推論タスクの実験結果によると、BPOはDPOを大きく上回り、Llama-3.1-8B-Instruct (18.8%から28.9%) と +11.7%、Qwen2.5-Math-7B (35.0%から46.7%) で精度を+10.1%向上している。
また、IPOで+3.6%(43.1%)、SLiCで+5.0%(41.7%)、Cal-DPOで+3.1%(43.6%)となっている。
注目すべきは、我々のアルゴリズムはたった1行のコード修正しか必要とせず、既存のDPOベースのフレームワークの実装が簡単で、完全に互換性があることです。
関連論文リスト
- Preference Optimization by Estimating the Ratio of the Data Distribution [12.378291609381677]
本稿では,比例マッチングのためのBregman preference Optimization (BPO)を提案する。
BPO は DPO を特別な場合として仮定し、すべてのインスタンスに対して tractable form を提供する。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
論文 参考訳(メタデータ) (2025-05-26T07:10:53Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。