論文の概要: Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
- arxiv url: http://arxiv.org/abs/2402.13228v2
- Date: Wed, 3 Jul 2024 13:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:04:00.453980
- Title: Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
- Title(参考訳): Smaug: DPO-Positiveによる予測最適化の障害モードの修正
- Authors: Arka Pal, Deep Karkhanis, Samuel Dooley, Manley Roberts, Siddartha Naidu, Colin White,
- Abstract要約: 理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
- 参考スコア(独自算出の注目度): 15.066029556877721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimisation (DPO) is effective at significantly improving the performance of large language models (LLMs) on downstream tasks such as reasoning, summarisation, and alignment. Using pairs of preferred and dispreferred data, DPO models the relative probability of picking one response over another. In this work, first we show theoretically that the standard DPO loss can lead to a reduction of the model's likelihood of the preferred examples, as long as the relative probability between the preferred and dispreferred classes increases. We then show empirically that this phenomenon occurs when fine-tuning LLMs on common datasets, especially datasets in which the edit distance between pairs of completions is low. Using these insights, we design DPO-Positive (DPOP), a new loss function and training procedure which avoids this failure mode. Surprisingly, we find that DPOP outperforms DPO and other fine-tuning procedures across a wide variety of datasets and downstream tasks, including datasets with high edit distances between completions. Furthermore, we find that the DPOP-tuned model outperforms the DPO-tuned model (all else equal) on benchmarks independent of the fine-tuning data, such as MT-Bench. Finally, using DPOP, we create and open-source Smaug-34B and Smaug-72B, with the latter becoming the first open-source LLM to surpass an average accuracy of 80% on the HuggingFace Open LLM Leaderboard.
- Abstract(参考訳): 直接選好最適化(DPO)は、推論、要約、アライメントといった下流タスクにおける大きな言語モデル(LLM)の性能を著しく向上させるのに有効である。
好ましくないデータと好ましくないデータのペアを用いて、DPOは1つのレスポンスを別のレスポンスに選択する相対確率をモデル化する。
本稿では、まず、標準DPO損失は、好ましくないクラスと好ましくないクラスの間の相対確率が増加する限り、モデルが好む例の確率を減少させる可能性があることを理論的に示す。
次に、この現象は、一般的なデータセット上の微調整LDM、特に、補完のペア間の編集距離が低いデータセットにおいて起こることを実証的に示す。
これらの知見を用いて、この障害モードを回避する新しい損失関数とトレーニング手順であるDPO-Positive (DPOP) を設計する。
意外なことに、DPOPはDPOやその他の細調整手順を、様々なデータセットや下流タスクで上回り、その間に高い編集距離を持つデータセットを含む。
さらに、DPOP調整モデルでは、MT-Benchのような微調整データに依存しないベンチマークにおいて、DPO調整モデルよりも優れていることが判明した。
最後に,DPOP を用いて Smaug-34B と Smaug-72B をオープンソース化し,HuggingFace Open LLM Leaderboard 上で平均80%の精度を突破した最初のオープンソース LLM となる。
関連論文リスト
- Less is More: Improving LLM Alignment via Preference Data Selection [46.9163802899686]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なアプローチである。
DPOトレーニングにおけるデータセットキュレーションのための新たなマージン最大化原理を提案する。
Ultrafeedbackデータセットの10%しか使用せず、様々なLlamaおよびMistralシリーズモデルに対して3%から8%の改善を実現しています。
論文 参考訳(メタデータ) (2025-02-20T13:45:17Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - SoPo: Text-to-Motion Generation Using Semi-Online Preference Optimization [82.83603957387442]
我々は、高品質で人間の好む動きを常に好むように微調整されたテキスト・トゥ・モーションモデルに焦点を当てる。
本研究では,オンライン設定とオフライン設定の両方でDPOを理論的に検討する。
そこで本研究では,DPOに基づくテキスト・ツー・モーションモデルのトレーニング手法であるSemi-online Preference Optimization (SoPo)を紹介する。
論文 参考訳(メタデータ) (2024-12-06T14:50:38Z) - Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult [0.48951183832371004]
この問題に対処するため,textbfModulated Intervention Preference Optimization (MIPO)を提案する。
MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。
我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。
論文 参考訳(メタデータ) (2024-09-26T05:24:14Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。