論文の概要: One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers
- arxiv url: http://arxiv.org/abs/2106.01023v1
- Date: Wed, 2 Jun 2021 08:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 05:00:23.017756
- Title: One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers
- Title(参考訳): 一人の教師は十分か?
複数の教師による事前学習型言語モデル蒸留
- Authors: Chuhan Wu, Fangzhao Wu, Yongfeng Huang
- Abstract要約: 本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
- 参考スコア(独自算出の注目度): 54.146208195806636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) achieve great success in NLP. However,
their huge model sizes hinder their applications in many practical systems.
Knowledge distillation is a popular technique to compress PLMs, which learns a
small student model from a large teacher PLM. However, the knowledge learned
from a single teacher may be limited and even biased, resulting in low-quality
student model. In this paper, we propose a multi-teacher knowledge distillation
framework named MT-BERT for pre-trained language model compression, which can
train high-quality student model from multiple teacher PLMs. In MT-BERT we
design a multi-teacher co-finetuning method to jointly finetune multiple
teacher PLMs in downstream tasks with shared pooling and prediction layers to
align their output space for better collaborative teaching. In addition, we
propose a multi-teacher hidden loss and a multi-teacher distillation loss to
transfer the useful knowledge in both hidden states and soft labels from
multiple teacher PLMs to the student model. Experiments on three benchmark
datasets validate the effectiveness of MT-BERT in compressing PLMs.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)はNLPにおいて大きな成功を収めている。
しかし、その巨大なモデルサイズは、多くの実用的なシステムでその応用を妨げる。
知識蒸留はPLMを圧縮する一般的な手法であり、大きな教師のPLMから小さな学生モデルを学ぶ。
しかし、一人の教師から学んだ知識は限定的であり、偏りもあるため、低品質の生徒モデルとなる。
本稿では,事前学習型言語モデル圧縮のためのマルチ教師ナレッジ蒸留フレームワークMT-BERTを提案する。
MT-BERT では,複数の教師 PLM を下流タスクで協調的に微調整するマルチ教師共同ファインタニング手法を設計する。
さらに,隠蔽状態とソフトラベルの両方において有用な知識を複数の教師PLMから学生モデルに伝達するために,多教師の隠蔽損失と多教師の蒸留損失を提案する。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。
そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。
その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-07T06:48:24Z) - SKDBERT: Compressing BERT via Stochastic Knowledge Distillation [17.589678394344475]
我々は、SKDBERTと呼ばれるコンパクトなBERTスタイルの言語モデルを得るための知識蒸留(SKD)を提案する。
各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力を持つ教師モデルからなる事前定義された教師アンサンブルから教師モデルをサンプリングし、知識を1対1で学生モデルに伝達する。
GLUEベンチマークの実験結果によると、SKDBERT は BERT$_rm BASE$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。
論文 参考訳(メタデータ) (2022-11-26T03:18:55Z) - UM4: Unified Multilingual Multiple Teacher-Student Model for
Zero-Resource Neural Machine Translation [102.04003089261761]
MNMT(Multilingual Neural Machine Translation)は、すべての言語で共有セマンティック空間を用いたワンパス翻訳を可能にする。
NMTのための統一多言語多言語学習モデル(UM4)を提案する。
本手法は,ゼロリソース翻訳の学生モデルを指導するために,ソース・教師,ターゲット・教師,ピボット・教師のモデルを統一する。
論文 参考訳(メタデータ) (2022-07-11T14:22:59Z) - Confidence-Aware Multi-Teacher Knowledge Distillation [12.938478021855245]
そこで本研究では,教師の予測に対して,基本トラスラベルの助けを借りて,サンプルの信頼性を適応的に割り当てる,信頼性に配慮した多教師知識蒸留(CA-MKD)を提案する。
私たちのCA-MKDは、様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2021-12-30T11:00:49Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - NewsBERT: Distilling Pre-trained Language Model for Intelligent News
Application [56.1830016521422]
本稿では,学習済み言語モデルを抽出し,効率的なニュースインテリジェンスを実現するNewsBERTを提案する。
そこで本研究では,教師と学生の共学モデルを協調的に学習するための,教師と学生の共学学習・蒸留の枠組みを設計する。
実験では,NewsBERTはより小さなモデルで,様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-09T15:41:12Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文 参考訳(メタデータ) (2020-10-13T02:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。