論文の概要: Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2106.05691v1
- Date: Thu, 10 Jun 2021 12:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:24:46.930725
- Title: Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT
Knowledge Distillation
- Title(参考訳): Marginal Utility Diminishes: BERT知識蒸留のための最小限の知識を探る
- Authors: Yuanxin Liu and Fandong Meng and Zheng Lin and Weiping Wang and Jie
Zhou
- Abstract要約: そこで本研究では, BERT を圧縮する KD パラダイムを提案する。
2種類の学生モデルとコンピュータデバイスに対して、提案されたKDパラダイムは2.7x3.4xのトレーニングスピードアップをもたらす。
- 参考スコア(独自算出の注目度): 32.86590800885039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, knowledge distillation (KD) has shown great success in BERT
compression. Instead of only learning from the teacher's soft label as in
conventional KD, researchers find that the rich information contained in the
hidden layers of BERT is conducive to the student's performance. To better
exploit the hidden knowledge, a common practice is to force the student to
deeply mimic the teacher's hidden states of all the tokens in a layer-wise
manner. In this paper, however, we observe that although distilling the
teacher's hidden state knowledge (HSK) is helpful, the performance gain
(marginal utility) diminishes quickly as more HSK is distilled. To understand
this effect, we conduct a series of analysis. Specifically, we divide the HSK
of BERT into three dimensions, namely depth, length and width. We first
investigate a variety of strategies to extract crucial knowledge for each
single dimension and then jointly compress the three dimensions. In this way,
we show that 1) the student's performance can be improved by extracting and
distilling the crucial HSK, and 2) using a tiny fraction of HSK can achieve the
same performance as extensive HSK distillation. Based on the second finding, we
further propose an efficient KD paradigm to compress BERT, which does not
require loading the teacher during the training of student. For two kinds of
student models and computing devices, the proposed KD paradigm gives rise to
training speedup of 2.7x ~ 3.4x.
- Abstract(参考訳): 近年,知識蒸留(KD)はBERT圧縮において大きな成功を収めている。
従来のkdのように教師のソフトラベルから学習する代わりに、研究者はバートの隠れた層に含まれる豊富な情報が生徒のパフォーマンスに反映されることを発見した。
隠れた知識をより効果的に活用するには、生徒にすべてのトークンの隠れた状態を層的な方法で深く模倣させることが一般的である。
しかし,本論文では,教師の隠れ状態知識(HSK)を蒸留することは有用であるが,HSKの蒸留量が増えるにつれて,性能向上(marginal utility)が急速に低下することが観察された。
この効果を理解するために、我々は一連の分析を行う。
具体的には,BERTのHSKを深さ,長さ,幅の3次元に分割する。
まず,各1次元の重要な知識を抽出し,その3次元を共同で圧縮する戦略について検討した。
このようにして,(1)重要なHSKを抽出,蒸留することにより,学生のパフォーマンスを向上し,(2)少量のHSKを使用すれば,広範なHSK蒸留と同じ性能が得られることを示す。
また,第2の発見に基づいて,生徒の訓練中に教師をロードする必要のないBERTを圧縮する効率的なKDパラダイムを提案する。
2種類の学生モデルとコンピュータデバイスに対して、提案されたKDパラダイムは2.7x〜3.4xのトレーニングスピードアップをもたらす。
関連論文リスト
- AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition [8.045296450065019]
知識蒸留は、高性能な教師モデルから知識を蒸留することで、コンパクトな学生モデルの性能を向上させることを目的としている。
AdaDistillはKDの概念をソフトマックスの損失に組み込み、教師から蒸留されたクラスセンターでマージンペナルティのソフトマックスの損失を学習する。
大規模な実験とアブレーション研究により、AdaDistillは生徒の差別的学習能力を高めることができることが示された。
論文 参考訳(メタデータ) (2024-07-01T14:39:55Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Extract then Distill: Efficient and Effective Task-Agnostic BERT
Distillation [46.344493684035875]
タスク非依存の知識蒸留は,BERT圧縮に有効であることが証明されている。
本研究では,教師のパラメータを有効かつ効果的なタスク非依存蒸留に再利用するための汎用戦略であるextract then distill (etd)を提案する。
論文 参考訳(メタデータ) (2021-04-24T11:23:39Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Understanding and Improving Knowledge Distillation [13.872105118381938]
知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。
本稿では,教師の知識を3つの階層レベルに分類し,その知識蒸留への影響について検討する。
論文 参考訳(メタデータ) (2020-02-10T04:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。