論文の概要: Reinforced Multi-Teacher Selection for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2012.06048v2
- Date: Mon, 14 Dec 2020 02:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:11:56.200262
- Title: Reinforced Multi-Teacher Selection for Knowledge Distillation
- Title(参考訳): 知識蒸留のための強化マルチティーチャー選択
- Authors: Fei Yuan, Linjun Shou, Jian Pei, Wutao Lin, Ming Gong, Yan Fu, Daxin
Jiang
- Abstract要約: 知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
- 参考スコア(独自算出の注目度): 54.72886763796232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing (NLP) tasks, slow inference speed and huge
footprints in GPU usage remain the bottleneck of applying pre-trained deep
models in production. As a popular method for model compression, knowledge
distillation transfers knowledge from one or multiple large (teacher) models to
a small (student) model. When multiple teacher models are available in
distillation, the state-of-the-art methods assign a fixed weight to a teacher
model in the whole distillation. Furthermore, most of the existing methods
allocate an equal weight to every teacher model. In this paper, we observe
that, due to the complexity of training examples and the differences in student
model capability, learning differentially from teacher models can lead to
better performance of student models distilled. We systematically develop a
reinforced method to dynamically assign weights to teacher models for different
training instances and optimize the performance of student model. Our extensive
experimental results on several NLP tasks clearly verify the feasibility and
effectiveness of our approach.
- Abstract(参考訳): 自然言語処理(NLP)タスクでは、推論速度の遅さとGPU使用量の巨大なフットプリントが、事前にトレーニングされたディープモデルを本番環境に適用するボトルネックとして残っている。
モデル圧縮の一般的な方法として、知識蒸留は知識を1つまたは複数の大きな(教師)モデルから小さな(学生)モデルに移す。
複数の教師モデルが蒸留で利用可能である場合、最先端の手法は蒸留全体において教師モデルに固定重量を割り当てる。
さらに、既存の手法のほとんどは教師モデルに等しい重さを割り当てている。
本稿では,学習例の複雑化と学生モデル能力の相違により,教師モデルから差分学習を行うことで,学生モデルの蒸留性能が向上することが観察された。
本研究では,教師モデルに異なる学習インスタンスに対して動的に重み付けを割り当て,生徒モデルの性能を最適化する強化手法を体系的に開発する。
いくつかのNLPタスクに対する広範な実験結果から,本手法の有効性と有効性が確認された。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Triplet Loss for Knowledge Distillation [2.683996597055128]
知識蒸留の目的は,教師モデルと学生モデルとの類似性を高めることである。
計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。
メトリック学習は,異なる出力の差を明らかにすることができ,学生モデルの性能を向上させることができると考えている。
論文 参考訳(メタデータ) (2020-04-17T08:48:29Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。