論文の概要: Improving Task-Agnostic BERT Distillation with Layer Mapping Search
- arxiv url: http://arxiv.org/abs/2012.06153v1
- Date: Fri, 11 Dec 2020 06:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:04:08.598989
- Title: Improving Task-Agnostic BERT Distillation with Layer Mapping Search
- Title(参考訳): レイヤマッピング探索によるタスク非依存BERT蒸留の改善
- Authors: Xiaoqi Jiao, Huating Chang, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao
Chen, Linlin Li, Fang Wang and Qun Liu
- Abstract要約: BERTモデルでは,階層レベルの監視が重要となることを示す。
本稿では,遺伝的アルゴリズム(GA)を用いて,最適な層マッピングを自動的に探索することを提案する。
最適層マッピングを得た後,全コーパス上でタスク非依存のBERT蒸留を行い,コンパクトな学生モデルを構築する。
- 参考スコア(独自算出の注目度): 43.7650740369353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) which transfers the knowledge from a large
teacher model to a small student model, has been widely used to compress the
BERT model recently. Besides the supervision in the output in the original KD,
recent works show that layer-level supervision is crucial to the performance of
the student BERT model. However, previous works designed the layer mapping
strategy heuristically (e.g., uniform or last-layer), which can lead to
inferior performance. In this paper, we propose to use the genetic algorithm
(GA) to search for the optimal layer mapping automatically. To accelerate the
search process, we further propose a proxy setting where a small portion of the
training corpus are sampled for distillation, and three representative tasks
are chosen for evaluation. After obtaining the optimal layer mapping, we
perform the task-agnostic BERT distillation with it on the whole corpus to
build a compact student model, which can be directly fine-tuned on downstream
tasks. Comprehensive experiments on the evaluation benchmarks demonstrate that
1) layer mapping strategy has a significant effect on task-agnostic BERT
distillation and different layer mappings can result in quite different
performances; 2) the optimal layer mapping strategy from the proposed search
process consistently outperforms the other heuristic ones; 3) with the optimal
layer mapping, our student model achieves state-of-the-art performance on the
GLUE tasks.
- Abstract(参考訳): 近年,大規模な教師モデルから小学生モデルに知識を伝達する知識蒸留(KD)が,BERTモデルを圧縮するために広く利用されている。
KDの出力の監督に加えて、最近の研究は、階層レベルの監督が学生BERTモデルの性能に不可欠であることを示している。
しかし、以前の作品では層マッピング戦略をヒューリスティックに設計しており(一様層や最後の層など)、性能を低下させる可能性がある。
本稿では,遺伝的アルゴリズム(ga)を用いて最適な層マッピングを自動的に探索する手法を提案する。
探索過程を高速化するために,蒸留のためにトレーニングコーパスのごく一部をサンプリングし,評価のために3つの代表的なタスクを選択するプロキシ設定を提案する。
最適層マッピングを得た後、コーパス全体に対してタスク非依存のBERT蒸留を行い、下流タスクを直接微調整できるコンパクトな学生モデルを構築する。
評価ベンチマークの総合的な実験から,1) 階層マッピング戦略がタスクに依存しないBERT蒸留や異なるレイヤマッピングに重大な影響があること,2) 提案した探索プロセスからの最適レイヤマッピング戦略が他のヒューリスティックな手法より一貫して優れていること,3) 最適レイヤマッピングでは,GLUEタスクにおける最先端のパフォーマンスが達成できること,などが示されている。
関連論文リスト
- Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Noisy Node Classification by Bi-level Optimization based Multi-teacher Distillation [17.50773984154023]
本稿では,二段階最適化(BO-NNC)に基づく多段階蒸留法を提案する。
具体的には、まず複数の自己教師型学習手法を用いて、多様な教師モデルの学習を行い、その後、教師の重み行列を通じて予測を集約する。
さらに,教師の重み行列を学生モデルの訓練進捗に基づいて動的に調整する二段階最適化手法を考案した。
論文 参考訳(メタデータ) (2024-04-27T12:19:08Z) - SKILL: Similarity-aware Knowledge distILLation for Speech
Self-Supervised Learning [14.480769476843886]
本稿では,教師ネットワーク内の個々の層を任意に蒸留するのではなく,層群間で蒸留を行う新しい手法であるSKILLを紹介する。
DPHuBERT に勝るだけでなく,30M のパラメーターモデルで最先端の結果が得られることを,我々の蒸留版 WavLM Base+ が実証した。
論文 参考訳(メタデータ) (2024-02-26T18:56:42Z) - Effective Whole-body Pose Estimation with Two-stages Distillation [52.92064408970796]
全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
論文 参考訳(メタデータ) (2023-07-29T03:49:28Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Active Teacher for Semi-Supervised Object Detection [80.10937030195228]
半教師対象検出(SSOD)のための能動教師と呼ばれる新しいアルゴリズムを提案する。
Active Teacherは、教師/学生のフレームワークを反復的なバージョンに拡張し、ラベルセットを部分的に段階的に拡張し、ラベルなし例の3つの重要な要素を評価する。
この設計により、Active Teacherは、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。
論文 参考訳(メタデータ) (2023-03-15T03:59:27Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。