論文の概要: ALP-KD: Attention-Based Layer Projection for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2012.14022v1
- Date: Sun, 27 Dec 2020 22:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 20:11:57.877176
- Title: ALP-KD: Attention-Based Layer Projection for Knowledge Distillation
- Title(参考訳): ALP-KD:知識蒸留のための注意層投影
- Authors: Peyman Passban, Yimeng Wu, Mehdi Rezagholizadeh, Qun Liu
- Abstract要約: 2つのニューラルネットワーク、すなわち教師と学生は、トレーニング中に一緒に結合されます。
教師ネットワークは信頼できる予測者であり、生徒はその予測を模倣しようとします。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
- 参考スコア(独自算出の注目度): 30.896957367331137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is considered as a training and compression strategy
in which two neural networks, namely a teacher and a student, are coupled
together during training. The teacher network is supposed to be a trustworthy
predictor and the student tries to mimic its predictions. Usually, a student
with a lighter architecture is selected so we can achieve compression and yet
deliver high-quality results. In such a setting, distillation only happens for
final predictions whereas the student could also benefit from teacher's
supervision for internal components.
Motivated by this, we studied the problem of distillation for intermediate
layers. Since there might not be a one-to-one alignment between student and
teacher layers, existing techniques skip some teacher layers and only distill
from a subset of them. This shortcoming directly impacts quality, so we instead
propose a combinatorial technique which relies on attention. Our model fuses
teacher-side information and takes each layer's significance into
consideration, then performs distillation between combined teacher layers and
those of the student. Using our technique, we distilled a 12-layer BERT (Devlin
et al. 2019) into 6-, 4-, and 2-layer counterparts and evaluated them on GLUE
tasks (Wang et al. 2018). Experimental results show that our combinatorial
approach is able to outperform other existing techniques.
- Abstract(参考訳): 知識蒸留は、教師と生徒の2つのニューラルネットワークが訓練中に結合されるトレーニングと圧縮戦略であると考えられている。
教師ネットワークは信頼できる予測者であり、学生はその予測を模倣しようとする。
通常、より軽量なアーキテクチャを持つ学生が選択され、圧縮が可能で、高品質な結果が得られる。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
そこで本研究では,中間層における蒸留問題について検討した。
学生層と教師層の間には一対一のアライメントがないため、既存のテクニックは教師層をスキップし、それらのサブセットからのみ蒸留する。
この欠点は直接品質に影響するため、注意に依存する組合せ手法を提案する。
本モデルでは,教師側情報を融合し,各レイヤの意義を考慮し,教師層と学生層との蒸留を行う。
本手法を用いて12層BERT (Devlin et al) を蒸留した。
2019) を6層,4層,2層に分け,グルータスク(wangなど)で評価した。
2018).
実験の結果,我々の組み合わせアプローチは既存の手法よりも優れていることがわかった。
関連論文リスト
- Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合する動的事前知識(DPK)を提案する。
私たちのメソッドは、単にターゲットではなく、教師の特徴を入力として取ります。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Alignahead: Online Cross-Layer Knowledge Extraction on Graph Neural
Networks [6.8080936803807734]
グラフニューラルネットワーク(GNN)上の既存の知識蒸留手法はほとんどオフラインである。
本稿では,この問題を解決するための新しいオンライン知識蒸留フレームワークを提案する。
一方の学生層を別の学生モデルの異なる深さの層に整列させることにより, クロス層蒸留戦略を開発する。
論文 参考訳(メタデータ) (2022-05-05T06:48:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Knowledge Distillation with the Reused Teacher Classifier [31.22117343316628]
簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-26T06:28:46Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。