論文の概要: A Dual-Space Framework for General Knowledge Distillation of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.11426v1
- Date: Tue, 15 Apr 2025 17:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:20.344530
- Title: A Dual-Space Framework for General Knowledge Distillation of Large Language Models
- Title(参考訳): 大規模言語モデルの一般知識蒸留のためのデュアルスペースフレームワーク
- Authors: Xue Zhang, Songming Zhang, Yunlong Liang, Fandong Meng, Yufeng Chen, Jinan Xu, Jie Zhou,
- Abstract要約: 知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
現在のWhite-box KDフレームワークには2つの制限がある。
我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 98.73585104789217
- License:
- Abstract: Knowledge distillation (KD) is a promising solution to compress large language models (LLMs) by transferring their knowledge to smaller models. During this process, white-box KD methods usually minimize the distance between the output distributions of the teacher model and the student model to transfer more information. However, we reveal that the current white-box KD framework exhibits two limitations: a) bridging probability distributions from different output spaces will limit the similarity between the teacher model and the student model; b) this framework cannot be applied to LLMs with different vocabularies. One of the root causes for these limitations is that the distributions from the teacher and the student for KD are output by different prediction heads, which yield distributions in different output spaces and dimensions. Therefore, in this paper, we propose a dual-space knowledge distillation (DSKD) framework that unifies the prediction heads of the teacher and the student models for KD. Specifically, we first introduce two projectors with ideal initialization to project the teacher/student hidden states into the student/teacher representation spaces. After this, the hidden states from different models can share the same head and unify the output spaces of the distributions. Furthermore, we develop an exact token alignment (ETA) algorithm to align the same tokens in two differently-tokenized sequences. Based on the above, our DSKD framework is a general KD framework that supports both off-policy and on-policy KD, and KD between any two LLMs regardless of their vocabularies. Extensive experiments on instruction-following, mathematical reasoning, and code generation benchmarks show that DSKD significantly outperforms existing methods based on the current white-box KD framework and surpasses other cross-tokenizer KD methods for LLMs with different vocabularies.
- Abstract(参考訳): 知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
この過程において、ホワイトボックスKD法は教師モデルの出力分布と生徒モデルの距離を最小化し、より多くの情報を伝達する。
しかし、現在のWhite-box KDフレームワークには2つの制限があることが明らかになった。
a) 異なる出力空間からの分岐確率分布は、教師モデルと学生モデルとの類似性を制限します。
b) この枠組みは,異なる語彙を持つ LLM に適用することはできない。
これらの制限の根本原因の1つは、教師とKDの学生の分布が異なる予測ヘッドによって出力され、異なる出力空間と次元の分布が生成されることである。
そこで本稿では,教師の予測ヘッドとKDの学生モデルを統合する二空間知識蒸留(DSKD)フレームワークを提案する。
具体的には、まず2つのプロジェクタを導入し、教師/学生の隠蔽状態を学生/教師の表現空間に投影する。
その後、異なるモデルから隠された状態は同じヘッドを共有し、分布の出力空間を統一することができる。
さらに、同じトークンを異なる2つの異なるトークン列に整列させるための正確なトークンアライメント(ETA)アルゴリズムを開発した。
以上のことから,我々のDSKDフレームワークは,言語によらず,いずれかのLLM間でも,オフ・ポリティクスとオン・ポリティクスのKDをサポートする一般的なKDフレームワークである。
命令追従、数学的推論、およびコード生成ベンチマークに関する大規模な実験により、DSKDは現在のホワイトボックスKDフレームワークに基づいて既存のメソッドよりも大幅に優れており、異なる語彙を持つLLMの他のクロストケナイザKDメソッドよりも優れていることが示されている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文 参考訳(メタデータ) (2024-06-25T07:25:15Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。