論文の概要: Disentangling Length from Quality in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2403.19159v1
- Date: Thu, 28 Mar 2024 06:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:12:54.325731
- Title: Disentangling Length from Quality in Direct Preference Optimization
- Title(参考訳): 直接選好最適化における品質から遠ざかる長さ
- Authors: Ryan Park, Rafael Rafailov, Stefano Ermon, Chelsea Finn,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
- 参考スコア(独自算出の注目度): 93.74831404396174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has been a crucial component in the recent success of Large Language Models. However, RLHF is know to exploit biases in human preferences, such as verbosity. A well-formatted and eloquent answer is often more highly rated by users, even when it is less helpful and objective. A number of approaches have been developed to control those biases in the classical RLHF literature, but the problem remains relatively under-explored for Direct Alignment Algorithms such as Direct Preference Optimization (DPO). Unlike classical RLHF, DPO does not train a separate reward model or use reinforcement learning directly, so previous approaches developed to control verbosity cannot be directly applied to this setting. Our work makes several contributions. For the first time, we study the length problem in the DPO setting, showing significant exploitation in DPO and linking it to out-of-distribution bootstrapping. We then develop a principled but simple regularization strategy that prevents length exploitation, while still maintaining improvements in model quality. We demonstrate these effects across datasets on summarization and dialogue, where we achieve up to 20\% improvement in win rates when controlling for length, despite the GPT4 judge's well-known verbosity bias.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
しかしながら、RLHFは、冗長性のような人間の嗜好のバイアスを悪用することが知られている。
十分に構造化され、雄弁な答えは、ユーザによってより高く評価されることが多い。
古典的RLHF文学におけるこれらのバイアスを制御するために、いくつかのアプローチが開発されているが、直接選好最適化(DPO)のような直列アライメントアルゴリズムでは、この問題は比較的未検討のままである。
古典的なRLHFとは異なり、DPOは個別の報酬モデルや強化学習を直接訓練しないため、冗長性を制御するために開発された従来のアプローチは、この設定に直接適用できない。
私たちの仕事はいくつかの貢献をしている。
筆者らはDPO設定における長さ問題について初めて検討し,DPOの大幅な活用とアウト・オブ・ディストリビューション・ブートストラップの関連性を示した。
次に、モデル品質の改善を維持しながら、長さの悪用を防ぐ、原則的だが単純な正規化戦略を開発する。
GPT4審査員のよく知られた冗長性バイアスにも拘わらず、これらの効果が要約と対話におけるデータセット間で示され、長さ制御時の勝利率を最大20倍向上させる。
関連論文リスト
- From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Active Preference Learning for Large Language Models [13.211063836237468]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - A Long Way to Go: Investigating Length Correlations in RLHF [64.99572519647032]
本研究では,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
RLHFを長さのみに基づく報酬で実行しても、初期ポリシーモデルよりも下流の改善のほとんどを再現できることがわかった。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。