論文の概要: Extract then Distill: Efficient and Effective Task-Agnostic BERT
Distillation
- arxiv url: http://arxiv.org/abs/2104.11928v1
- Date: Sat, 24 Apr 2021 11:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:45:37.818386
- Title: Extract then Distill: Efficient and Effective Task-Agnostic BERT
Distillation
- Title(参考訳): 抽出と蒸留:効率的なタスク非依存BERT蒸留
- Authors: Cheng Chen, Yichun Yin, Lifeng Shang, Zhi Wang, Xin Jiang, Xiao Chen,
Qun Liu
- Abstract要約: タスク非依存の知識蒸留は,BERT圧縮に有効であることが証明されている。
本研究では,教師のパラメータを有効かつ効果的なタスク非依存蒸留に再利用するための汎用戦略であるextract then distill (etd)を提案する。
- 参考スコア(独自算出の注目度): 46.344493684035875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-agnostic knowledge distillation, a teacher-student framework, has been
proved effective for BERT compression. Although achieving promising results on
NLP tasks, it requires enormous computational resources. In this paper, we
propose Extract Then Distill (ETD), a generic and flexible strategy to reuse
the teacher's parameters for efficient and effective task-agnostic
distillation, which can be applied to students of any size. Specifically, we
introduce two variants of ETD, ETD-Rand and ETD-Impt, which extract the
teacher's parameters in a random manner and by following an importance metric
respectively. In this way, the student has already acquired some knowledge at
the beginning of the distillation process, which makes the distillation process
converge faster. We demonstrate the effectiveness of ETD on the GLUE benchmark
and SQuAD. The experimental results show that: (1) compared with the baseline
without an ETD strategy, ETD can save 70\% of computation cost. Moreover, it
achieves better results than the baseline when using the same computing
resource. (2) ETD is generic and has been proven effective for different
distillation methods (e.g., TinyBERT and MiniLM) and students of different
sizes. The source code will be publicly available upon publication.
- Abstract(参考訳): タスク依存型知識蒸留は, BERT圧縮に有効であることが証明されている。
NLPタスクで有望な結果を達成するには、膨大な計算資源が必要である。
本稿では,教師のパラメータを有効かつ効果的なタスク非依存蒸留に利用するための汎用的かつ柔軟な戦略であるextract then distill (etd)を提案する。
具体的には,教師のパラメータをランダムに抽出するETD,ETD-Rand,ETD-Imptの2つの変種を紹介する。
このようにして、学生は蒸留プロセスの開始時に既にいくつかの知識を取得しており、蒸留プロセスはより早く収束する。
GLUEベンチマークとSQuADにおけるETDの有効性を示す。
実験の結果,(1)ETD戦略のないベースラインと比較して,ETDは計算コストの70%を節約できることがわかった。
さらに、同じ計算リソースを使用する場合、ベースラインよりも優れた結果が得られる。
2)ETDは汎用的であり,様々な蒸留法(TinyBERTやMiniLMなど)と異なるサイズの学生に有効であることが証明されている。
ソースコードは公開時には公開される予定だ。
関連論文リスト
- Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。