論文の概要: DPO-Shift: Shifting the Distribution of Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.07599v1
- Date: Tue, 11 Feb 2025 14:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:09.211308
- Title: DPO-Shift: Shifting the Distribution of Direct Preference Optimization
- Title(参考訳): DPO-Shift: 直接選好最適化の分布のシフト
- Authors: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li,
- Abstract要約: 選択した確率の分布を制御的にシフトさせる手法を提案する。
提案手法は,選択した確率を改善することと,報酬マージンを犠牲にすることとの基本的なトレードオフを示す。
- 参考スコア(独自算出の注目度): 13.261638548369188
- License:
- Abstract: Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.
- Abstract(参考訳): 直接選好最適化(DPO)とその変種は、言語モデルと人間の選好を整合させることで、ますます人気が高まっている。
これらの手法は、選択された(または好まれる)レスポンスと拒否された(または好ましくない)レスポンスをよりよく区別するようにモデルを教えることを目的としている。
しかし、以前の研究では、選択された反応の確率が訓練中に減少することが多く、この現象は確率変位として知られている。
この課題に対処するため、本稿では、選択された確率の分布を制御的にシフトさせるために \method を導入する。
次に,<method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</
さらに,MT-Bench などの下流タスクにおける DPO に対する \method の優位性や,設計した利率実験について述べる。
本研究は, DPO の変位確率を, 理論的に簡単な解法で効果的に緩和できることを示すものである。
私たちのコードはhttps://github.com/Meaquadddd/DPO-Shiftで利用可能です。
関連論文リスト
- Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
本稿では, DRDO (Direct Reward Distillation and Policy-Optimization) を紹介する。
Ultrafeedback と TL;DR データセットの結果、DRDO が学習したポリシーが、期待される報酬の点で DPO や e-DPO などの手法を超越していることが示されている。
論文 参考訳(メタデータ) (2024-10-11T02:19:11Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。