論文の概要: Intermediate direct preference optimization
- arxiv url: http://arxiv.org/abs/2408.02923v1
- Date: Tue, 6 Aug 2024 03:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:09:28.185371
- Title: Intermediate direct preference optimization
- Title(参考訳): 中間的直接選好最適化
- Authors: Atsushi Kojima,
- Abstract要約: 大規模言語モデル(LLM)を微調整するための補助的損失として,選択した中間層におけるDPO損失を計算するための中間的直接選好最適化(DPO)手法を提案する。
ウルトラフィードバックデータセットを用いた実験では, 中間DPOモデルの性能をGPT-4を用いて評価した。
その結果、32層SFTモデルの22層で算出した中間DPO損失を用いてトレーニングした中間DPOモデルは、従来のDPOモデルとSFTモデルとでそれぞれ52.5%と67.5%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 3.045851438458641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the intermediate direct preference optimization (DPO) method to calculate the DPO loss at selected intermediate layers as an auxiliary loss for finetuning large language models (LLMs). The conventional DPO method fine-tunes a supervised fine-tuning (SFT) model by calculating the DPO loss using logits from the final layer. In our intermediate DPO approach, DPO losses are calculated using the logits from K-selected intermediate layers and averaged to obtain the intermediate DPO loss. For training the intermediate DPO model, the final loss is obtained by calculating the weighted sum of the DPO and intermediate DPO losses. During inference, the intermediate DPO model decodes using the final layer logits similarly to the conventional DPO model. In experiments using the ultrafeedback dataset, the performance of the intermediate DPO model was evaluated using GPT-4. As a result, the intermediate DPO model trained using the intermediate DPO loss calculated at the 22nd layer of a 32-layer SFT model achieved win rates of 52.5% and 67.5% against the conventional DPO and SFT models, respectively, demonstrating the effectiveness of the proposed method. Furthermore, we report the relationships among the position of the selected intermediate layers, the number of layers, and performance.
- Abstract(参考訳): 本稿では,大言語モデル(LLM)を微調整するための補助的損失として,選択した中間層におけるDPO損失を計算するための中間的直接選好最適化(DPO)手法を提案する。
従来のDPO法では、最終層からのロジットを用いてDPO損失を計算することにより、教師付き微調整(SFT)モデルを微調整する。
中間DPO法では, K選択中間層からのロジットを用いてDPO損失を算出し, 中間DPO損失を得る。
中間DPOモデルのトレーニングでは、DPOの重み付け和と中間DPOの損失を計算して最終損失を求める。
推論中、中間DPOモデルは、従来のDPOモデルと同様に最終層ロジットを用いて復号する。
ウルトラフィードバックデータセットを用いた実験では, 中間DPOモデルの性能をGPT-4を用いて評価した。
その結果、32層SFTモデルの22層で算出した中間DPO損失を用いてトレーニングした中間DPOモデルは、従来のDPOモデルとSFTモデルに対して52.5%、67.5%の勝利率を達成し、提案手法の有効性を実証した。
さらに,選択した中間層の位置,層数,性能の関係について報告する。
関連論文リスト
- Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Length Desensitization in Directed Preference Optimization [26.664176443756773]
DPOは冗長性に対して過度に最適化される傾向があり、パフォーマンスとユーザエクスペリエンスの両方に有害に影響を及ぼす可能性がある。
LD-DPO(LD-DPO)と呼ばれるDPOの時間依存性改善手法を提案する。
提案手法は,他の暗黙の選好から比較的重要でない明示的な長さ選好を分離することにより,DPOをデータ長に脱感化することを目的としている。
論文 参考訳(メタデータ) (2024-09-10T10:49:38Z) - Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning [38.127313175508746]
ステップ制御DPOは、特定のステップでエラーを発生させる数学的推論論理の負のサンプルを生成する。
これらのサンプルをDPOトレーニングに適用することにより、SCDPOは推論エラーを理解し、正確な推論ステップを出力するようにモデルを整合させることができる。
論文 参考訳(メタデータ) (2024-06-30T17:59:07Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective [25.34250859820326]
DPOの最適化過程を解析するためにフィールド理論を用いた分析フレームワークを提供する。
DPO損失関数は、好むデータを生成する確率を増大させるよりも速い速度で人間の非推奨データを生成する確率を減少させる。
論文 参考訳(メタデータ) (2024-04-06T13:24:37Z) - Human Alignment of Large Language Models through Online Preference
Optimisation [50.52545798589968]
最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
この等価性は、オンラインバージョンのIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプルされ、訓練された選好モデルによって注釈付けされる時である。
本稿では,一般的なNash-MDアルゴリズムと同様に,オンラインポリシと参照ポリシの混在したデータを生成するIPO-MDアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2024-03-13T15:47:26Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。