論文の概要: Direct Preference Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.19774v1
- Date: Fri, 28 Jun 2024 09:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.997952
- Title: Direct Preference Knowledge Distillation for Large Language Models
- Title(参考訳): 大規模言語モデルに対する直接選好知識蒸留法
- Authors: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei,
- Abstract要約: 大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
- 参考スコア(独自算出の注目度): 73.50849692633953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of large language models (LLMs), Knowledge Distillation (KD) is a critical technique for transferring capabilities from teacher models to student models. However, existing KD methods face limitations and challenges in distillation of LLMs, including efficiency and insufficient measurement capabilities of traditional KL divergence. It is shown that LLMs can serve as an implicit reward function, which we define as a supplement to KL divergence. In this work, we propose Direct Preference Knowledge Distillation (DPKD) for LLMs. DPKD utilizes distribution divergence to represent the preference loss and implicit reward function. We re-formulate KD of LLMs into two stages: first optimizing and objective consisting of implicit reward and reverse KL divergence and then improving the preference probability of teacher outputs over student outputs. We conducted experiments and analysis on various datasets with LLM parameters ranging from 120M to 13B and demonstrate the broad applicability and effectiveness of our DPKD approach. Meanwhile, we prove the value and effectiveness of the introduced implicit reward and output preference in KD through experiments and theoretical analysis. The DPKD method outperforms the baseline method in both output response precision and exact match percentage. Code and data are available at https://aka.ms/dpkd.
- Abstract(参考訳): 大規模言語モデル(LLMs)の分野では、知識蒸留(KD)は教師モデルから生徒モデルへの変換能力において重要な技術である。
しかし,既存のKD法では,従来のKL分散の効率性や測定能力の不足など,LLMの蒸留の限界や課題に直面している。
その結果,LLMは暗黙の報酬関数として機能し,KL分散の補足として定義できることがわかった。
本研究では, LLMに対するDPKD(Direct Preference Knowledge Distillation)を提案する。
DPKDは分布のばらつきを利用して、優先損失と暗黙の報酬関数を表現する。
我々は,LLMのKDを,暗黙の報酬と逆のKL発散からなる目標の最適化と,学生出力よりも教師出力の選好確率の向上の2段階に再構成した。
120Mから13BまでのLLMパラメータを用いた各種データセットの実験と解析を行い,DPKD手法の適用性および有効性を示した。
一方、KDにおける暗黙の報酬と出力選好の価値と有効性は、実験と理論的分析によって証明される。
DPKD法は、出力応答精度と正確な一致率の両方でベースライン法より優れる。
コードとデータはhttps://aka.ms/dpkd.comで公開されている。
関連論文リスト
- Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文 参考訳(メタデータ) (2024-06-25T07:25:15Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - A Survey on Knowledge Distillation of Large Language Models [102.84645991075283]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z) - Extending Label Smoothing Regularization with Self-Knowledge
Distillation [11.009345791558601]
そこで我々は,LSR法をKD法に拡張し,よりソフトな温度を適用することにより,学習促進のためのアルゴリズムLsrKDを提案する。
LsrKDの性能をさらに向上するため,メモリ再生知識蒸留(MrKD)と呼ばれる自己蒸留法を開発した。
実験の結果,LsrKDは,LSRが非効率ないくつかのディープニューラルネットワークにおいて,LSRの性能を一貫したコストで向上できることがわかった。
論文 参考訳(メタデータ) (2020-09-11T04:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。