論文の概要: Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
- arxiv url: http://arxiv.org/abs/2402.13228v1
- Date: Tue, 20 Feb 2024 18:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:56:20.718256
- Title: Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
- Title(参考訳): Smaug: DPO-Positiveによる予測最適化の障害モードの修正
- Authors: Arka Pal, Deep Karkhanis, Samuel Dooley, Manley Roberts, Siddartha
Naidu, Colin White
- Abstract要約: 理論上、標準的なDPO損失は、モデルが好むサンプルの可能性のテキスト化に繋がることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOを著しく上回ります。
- 参考スコア(独自算出の注目度): 15.964203282945245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimisation (DPO) is effective at significantly improving
the performance of large language models (LLMs) on downstream tasks such as
reasoning, summarisation, and alignment. Using pairs of preferred and
dispreferred data, DPO models the \textit{relative} probability of picking one
response over another. In this work, first we show theoretically that the
standard DPO loss can lead to a \textit{reduction} of the model's likelihood of
the preferred examples, as long as the relative probability between the
preferred and dispreferred classes increases. We then show empirically that
this phenomenon occurs when fine-tuning LLMs on common datasets, especially
datasets in which the edit distance between pairs of completions is low. Using
these insights, we design DPO-Positive (DPOP), a new loss function and training
procedure which avoids this failure mode. Surprisingly, we also find that DPOP
significantly outperforms DPO across a wide variety of datasets and downstream
tasks, including datasets with high edit distances between completions. By
fine-tuning with DPOP, we create and release Smaug-34B and Smaug-72B, which
achieve state-of-the-art open-source performance. Notably, Smaug-72B is nearly
2\% better than any other open-source model on the HuggingFace Open LLM
Leaderboard and becomes the first open-source LLM to surpass an average
accuracy of 80\%.
- Abstract(参考訳): 直接選好最適化(DPO)は、推論、要約、アライメントといった下流タスクにおける大きな言語モデル(LLM)の性能を著しく向上させるのに有効である。
好ましくないデータと好ましくないデータのペアを用いて、DPOは、あるレスポンスを別のレスポンスに選択する確率をモデル化する。
本研究では、まず、標準dpo損失が、推奨されるクラスと非推奨クラスの間の相対的確率が増加する限り、望ましい例のモデルの確率を \textit{reduction} に導くことができることを理論的に示す。
次に,この現象は,共通データセット,特にペア間の編集距離が低いデータセット上で,llmを微調整した場合に発生することを実証的に示す。
これらの知見を用いて、この障害モードを回避する新しい損失関数とトレーニング手順であるDPO-Positive (DPOP) を設計する。
意外なことに、DPOPは様々なデータセットや下流タスクでDPOを著しく上回り、その間に高い編集距離を持つデータセットを含む。
DPOPを微調整することで、最先端のオープンソースパフォーマンスを実現するSmaug-34BとSmaug-72Bを作成し、リリースする。
特に、Smaug-72BはHuggingFace Open LLM Leaderboardの他のどのオープンソースモデルよりも2倍近く優れており、平均精度が80倍を超えた最初のオープンソースLLMとなっている。
関連論文リスト
- Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Direct Preference Optimization with an Offset [66.0827992149128]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Adversarial Preference Optimization [30.937079544053482]
より効率的な人選好最適化を目指すために, 対人選好最適化(APO)フレームワークを提案する。
APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。