論文の概要: Dual-Space Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.17328v1
- Date: Tue, 25 Jun 2024 07:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:21:33.651254
- Title: Dual-Space Knowledge Distillation for Large Language Models
- Title(参考訳): 大規模言語モデルのための二重空間知識蒸留
- Authors: Songming Zhang, Xue Zhang, Zengkui Sun, Yufeng Chen, Jinan Xu,
- Abstract要約: KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
- 参考スコア(独自算出の注目度): 39.798007795604676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation (KD) is known as a promising solution to compress large language models (LLMs) via transferring their knowledge to smaller models. During this process, white-box KD methods usually minimize the distance between the output distributions of the two models so that more knowledge can be transferred. However, in the current white-box KD framework, the output distributions are from the respective output spaces of the two models, using their own prediction heads. We argue that the space discrepancy will lead to low similarity between the teacher model and the student model on both representation and distribution levels. Furthermore, this discrepancy also hinders the KD process between models with different vocabularies, which is common for current LLMs. To address these issues, we propose a dual-space knowledge distillation (DSKD) framework that unifies the output spaces of the two models for KD. On the basis of DSKD, we further develop a cross-model attention mechanism, which can automatically align the representations of the two models with different vocabularies. Thus, our framework is not only compatible with various distance functions for KD (e.g., KL divergence) like the current framework, but also supports KD between any two LLMs regardless of their vocabularies. Experiments on task-agnostic instruction-following benchmarks show that DSKD significantly outperforms the current white-box KD framework with various distance functions, and also surpasses existing KD methods for LLMs with different vocabularies.
- Abstract(参考訳): 知識蒸留(KD)は、より大きな言語モデル(LLM)を圧縮し、その知識をより小さなモデルに伝達する、有望なソリューションとして知られている。
この過程において、ホワイトボックスKD法は通常、2つのモデルの出力分布間の距離を最小化し、より多くの知識を伝達することができる。
しかし、現在のWhite-box KDフレームワークでは、出力分布は2つのモデルの出力空間からなり、それぞれの予測ヘッドを使用する。
我々は,空間差が教師モデルと生徒モデルとの表現と分布の両レベルでの類似度を低くすると主張している。
さらに、この相違により、現在のLLMに共通する異なる語彙を持つモデル間のKDプロセスも妨げられる。
これらの問題に対処するため,KDの2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
DSKDに基づいて,2つのモデルの表現を異なる語彙で自動的に整列するクロスモデルアテンション機構をさらに発展させる。
したがって、我々のフレームワークは、現在のフレームワークのようなKD(例えば、KLの発散)の様々な距離関数と互換性があるだけでなく、語彙に関係なく任意の2つのLLM間のKDもサポートしている。
タスクに依存しない命令追従ベンチマークの実験では、DSKDは様々な距離関数を持つ現在のWhite-box KDフレームワークよりも大幅に優れており、異なる語彙を持つLLMの既存のKDメソッドよりも優れていた。
関連論文リスト
- Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。