論文の概要: How to Distill your BERT: An Empirical Study on the Impact of Weight
Initialisation and Distillation Objectives
- arxiv url: http://arxiv.org/abs/2305.15032v1
- Date: Wed, 24 May 2023 11:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:36:39.997369
- Title: How to Distill your BERT: An Empirical Study on the Impact of Weight
Initialisation and Distillation Objectives
- Title(参考訳): BERTの蒸留方法:重量初期化および蒸留対象物の影響に関する実証的研究
- Authors: Xinpeng Wang, Leonie Weissweiler, Hinrich Sch\"utze, Barbara Plank
- Abstract要約: 私たちは、注意伝達が全体的なパフォーマンスに最高のことを示しています。
また,教師層から生徒を初期化する際の層選択の影響についても検討した。
我々は、さらなる研究のために、効率的なトランスフォーマーベースのモデル蒸留フレームワークとしてコードを公開します。
- 参考スコア(独自算出の注目度): 18.192124201159594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various intermediate layer distillation (ILD) objectives have been
shown to improve compression of BERT models via Knowledge Distillation (KD).
However, a comprehensive evaluation of the objectives in both task-specific and
task-agnostic settings is lacking. To the best of our knowledge, this is the
first work comprehensively evaluating distillation objectives in both settings.
We show that attention transfer gives the best performance overall. We also
study the impact of layer choice when initializing the student from the teacher
layers, finding a significant impact on the performance in task-specific
distillation. For vanilla KD and hidden states transfer, initialisation with
lower layers of the teacher gives a considerable improvement over higher
layers, especially on the task of QNLI (up to an absolute percentage change of
17.8 in accuracy). Attention transfer behaves consistently under different
initialisation settings. We release our code as an efficient transformer-based
model distillation framework for further studies.
- Abstract(参考訳): 近年,様々な中間層蒸留(ILD)の目的が,知識蒸留(KD)によるBERTモデルの圧縮を改善することが示されている。
しかし、タスク固有の設定とタスクに依存しない設定の両方において、目標の包括的な評価は不足している。
私たちの知る限りでは、両方の環境で蒸留目標を総合的に評価するのはこれが初めてです。
注意伝達は全体として最高のパフォーマンスを示す。
また,教師層から生徒を初期化する際の層選択の影響について検討し,課題特異的蒸留における性能に有意な影響を見出した。
バニラKDと隠れ状態移動では、教師の低い層での初期化は、特にQNLI(精度で17.8の絶対的な変化)のタスクにおいて、より高い層よりも大幅に改善される。
注意伝達は、異なる初期設定の下で一貫して振る舞う。
我々は、さらなる研究のために、効率的なトランスフォーマーベースのモデル蒸留フレームワークとしてコードをリリースします。
関連論文リスト
- Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - Response-based Distillation for Incremental Object Detection [2.337183337110597]
従来の物体検出は漸進的な学習には不適当である。
新しいデータのみを用いて、よく訓練された検出モデルを直接微調整することで、破滅的な忘れを招きます。
本研究では,検出境界ボックスからの学習応答と分類予測に着目した完全応答に基づくインクリメンタル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-10-26T08:07:55Z) - ERNIE-Tiny : A Progressive Distillation Framework for Pretrained
Transformer Compression [20.23732233214849]
プレトレーニング言語モデル(PLM)を圧縮するための4段階進行蒸留フレームワークERNIE-Tinyを提案する。
実験によると、4層のERNIE-TinyはGLUEベンチマークで12層のBERTベースの98.0%のパフォーマンスを維持している。
ERNIE-Tinyは、中国の5つのNLPタスクに対する新しい圧縮SOTAを達成し、BERTベースの精度を0.4%上回り、パラメータは7.5倍、推論速度は9.4倍向上した。
論文 参考訳(メタデータ) (2021-06-04T04:00:16Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。