論文の概要: Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence
- arxiv url: http://arxiv.org/abs/2406.10957v3
- Date: Mon, 30 Sep 2024 14:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:20.124817
- Title: Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence
- Title(参考訳): ダウンサンプリングKLダイバージェンスによる直接選好最適化のバイアス長依存性の除去
- Authors: Junru Lu, Jiazheng Li, Siyu An, Meng Zhao, Yulan He, Di Yin, Xing Sun,
- Abstract要約: DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
- 参考スコア(独自算出の注目度): 31.03305638930844
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a prominent algorithm for the direct and robust alignment of Large Language Models (LLMs) with human preferences, offering a more straightforward alternative to the complex Reinforcement Learning from Human Feedback (RLHF). Despite its promising efficacy, DPO faces a notable drawback: "verbosity", a common over-optimization phenomenon also observed in RLHF. While previous studies mainly attributed verbosity to biased labels within the data, we propose that the issue also stems from an inherent algorithmic length reliance in DPO. Specifically, we suggest that the discrepancy between sequence-level Kullback-Leibler (KL) divergences between chosen and rejected sequences, used in DPO, results in overestimated or underestimated rewards due to varying token lengths. Empirically, we utilize datasets with different label lengths to demonstrate the presence of biased rewards. We then introduce an effective downsampling approach, named SamPO, to eliminate potential length reliance. Our experimental evaluations, conducted across three LLMs of varying scales and a diverse array of conditional and open-ended benchmarks, highlight the efficacy of SamPO in mitigating verbosity, achieving improvements of 5% to 12% over DPO through debaised rewards. Our codes can be accessed at: https://github.com/LuJunru/SamPO/.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模言語モデル(LLM)と人間の嗜好を直接的かつ堅牢にアライメントするための顕著なアルゴリズムとして登場し、複雑な強化学習(RLHF)の代替となる。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
過去の研究は、主にデータ内のバイアス付きラベルによる冗長性に起因していたが、この問題はDPOに固有のアルゴリズム長依存にも起因していると提案する。
具体的には、DPOで使用される選択されたシーケンスと拒否されたシーケンス間のシーケンスレベルのKullback-Leibler(KL)の相違が、トークン長の変化による過大評価または過小評価の報奨をもたらすことを示唆する。
実験では,ラベルの長さの異なるデータセットを用いて,偏りのある報酬の存在を実証する。
次に、SamPOと呼ばれる効果的なダウンサンプリング手法を導入し、潜在的長さ依存を排除した。
評価実験では,DPOよりも5%から12%の改善が達成され,条件付きおよびオープンなベンチマークが多岐にわたって実施され,冗長性を緩和するSamPOの有効性が示された。
私たちのコードは、https://github.com/LuJunru/SamPO/.comでアクセスできます。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は,新しいアルゴリズム,反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で41.5%の勝利率、Arena-Hardで38.3%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
実験効果を総合的に検討し,RLHF-PPOとの比較を行った。
DPOの学習結果のtextbf3D-properties を同定する。
我々はtextbf3D-properties による問題を緩和するための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好調整モデルの多くは、共通の選好データセット上で60%未満のランキング精度を実現する。
我々は、この矛盾をDPOの目的に当てはめ、これは経験的にも理論的にも、微妙なランキングエラーの修正に不適当である。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。