論文の概要: ERNIE-Tiny : A Progressive Distillation Framework for Pretrained
Transformer Compression
- arxiv url: http://arxiv.org/abs/2106.02241v1
- Date: Fri, 4 Jun 2021 04:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:09:57.293908
- Title: ERNIE-Tiny : A Progressive Distillation Framework for Pretrained
Transformer Compression
- Title(参考訳): ernie-tiny : 変圧器圧縮用プログレッシブ蒸留フレームワーク
- Authors: Weiyue Su, Xuyi Chen, Shikun Feng, Jiaxiang Liu, Weixin Liu, Yu Sun,
Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: プレトレーニング言語モデル(PLM)を圧縮するための4段階進行蒸留フレームワークERNIE-Tinyを提案する。
実験によると、4層のERNIE-TinyはGLUEベンチマークで12層のBERTベースの98.0%のパフォーマンスを維持している。
ERNIE-Tinyは、中国の5つのNLPタスクに対する新しい圧縮SOTAを達成し、BERTベースの精度を0.4%上回り、パラメータは7.5倍、推論速度は9.4倍向上した。
- 参考スコア(独自算出の注目度): 20.23732233214849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) such as BERT adopt a training paradigm
which first pretrain the model in general data and then finetune the model on
task-specific data, and have recently achieved great success. However, PLMs are
notorious for their enormous parameters and hard to be deployed on real-life
applications. Knowledge distillation has been prevailing to address this
problem by transferring knowledge from a large teacher to a much smaller
student over a set of data. We argue that the selection of thee three key
components, namely teacher, training data, and learning objective, is crucial
to the effectiveness of distillation. We, therefore, propose a four-stage
progressive distillation framework ERNIE-Tiny to compress PLM, which varies the
three components gradually from general level to task-specific level.
Specifically, the first stage, General Distillation, performs distillation with
guidance from pretrained teacher, gerenal data and latent distillation loss.
Then, General-Enhanced Distillation changes teacher model from pretrained
teacher to finetuned teacher. After that, Task-Adaptive Distillation shifts
training data from general data to task-specific data. In the end,
Task-Specific Distillation, adds two additional losses, namely Soft-Label and
Hard-Label loss onto the last stage. Empirical results demonstrate the
effectiveness of our framework and generalization gain brought by ERNIE-Tiny.In
particular, experiments show that a 4-layer ERNIE-Tiny maintains over
98.0%performance of its 12-layer teacher BERT base on GLUE benchmark,
surpassing state-of-the-art (SOTA) by 1.0% GLUE score with the same amount of
parameters. Moreover, ERNIE-Tiny achieves a new compression SOTA on five
Chinese NLP tasks, outperforming BERT base by 0.4% accuracy with 7.5x fewer
parameters and9.4x faster inference speed.
- Abstract(参考訳): BERTのような事前訓練された言語モデル(PLM)は、まず一般的なデータでモデルを事前訓練し、タスク固有のデータでモデルを微調整する訓練パラダイムを採用し、最近大きな成功を収めた。
しかしplmは、その膨大なパラメータと実際のアプリケーションへのデプロイが難しいことで悪名高い。
知識蒸留は、大規模な教師からより小さな学生に一連のデータを通して知識を移すことによって、この問題に対処するために普及してきた。
我々は,教師,訓練データ,学習目標という3つの主成分の選択が蒸留の有効性に不可欠であると主張する。
そこで本研究では, PLMを圧縮するために, 4段階のプログレッシブ蒸留フレームワークERNIE-Tinyを提案する。
具体的には、第1段階の一般蒸留は、予め訓練された教師、ゲレナルデータ、潜在蒸留損失からの指導により蒸留を行う。
そして, 一般蒸留により, 予熟した教師から微調整された教師へと教師モデルを変化させる。
その後、タスク適応蒸留はトレーニングデータを一般的なデータからタスク固有のデータにシフトする。
最後に、タスク固有の蒸留により、最終段階でソフトラベルとハードラベルの2つの損失が加わった。
ERNIE-Tinyがもたらすフレームワークの有効性と一般化効果を実証した結果、特に実験では、4層ERNIE-TinyがGLUEベンチマーク上での12層BERTベースの性能を98.0%以上維持し、同じパラメータで11.0%GLUEスコアを上回ります。
さらに、ERNIE-Tinyは5つの中国のNLPタスクに対する新しい圧縮SOTAを実現し、BERTベースを0.4%、パラメータが7.5倍、推論速度が9.4倍に向上した。
関連論文リスト
- Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - A Study on Knowledge Distillation from Weak Teacher for Scaling Up
Pre-trained Language Models [104.64899255277443]
弱教師 (DWT) による蒸留は、より小さく弱い教師モデルからより大きな学生モデルへ知識を伝達し、その性能を向上させる方法である。
本研究では,視覚領域や伝統的な知識蒸留と異なり,DWTを最適化するための3つの重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-26T13:24:49Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - How to Distill your BERT: An Empirical Study on the Impact of Weight
Initialisation and Distillation Objectives [18.192124201159594]
私たちは、注意伝達が全体的なパフォーマンスに最高のことを示しています。
また,教師層から生徒を初期化する際の層選択の影響についても検討した。
我々は、さらなる研究のために、効率的なトランスフォーマーベースのモデル蒸留フレームワークとしてコードを公開します。
論文 参考訳(メタデータ) (2023-05-24T11:16:09Z) - Remember the Past: Distilling Datasets into Addressable Memories for
Neural Networks [27.389093857615876]
本稿では,大規模データセットの臨界情報をコンパクトなアドレスメモリに圧縮するアルゴリズムを提案する。
これらの記憶をリコールすることで、ニューラルネットワークを素早く再トレーニングし、パフォーマンスを回復することができる。
本研究は, 5つのベンチマークを用いて, データセットの蒸留作業に関する最新結果を示す。
論文 参考訳(メタデータ) (2022-06-06T21:32:26Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z) - Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation [17.62309851473892]
本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-07T03:03:00Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。