論文の概要: MiniDisc: Minimal Distillation Schedule for Language Model Compression
- arxiv url: http://arxiv.org/abs/2205.14570v3
- Date: Mon, 29 Jan 2024 03:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 01:19:58.031160
- Title: MiniDisc: Minimal Distillation Schedule for Language Model Compression
- Title(参考訳): MiniDisc: 言語モデル圧縮のための最小蒸留スケジュール
- Authors: Chen Zhang, Yang Yang, Qifan Wang, Jiahao Liu, Jingang Wang, Wei Wu,
Dawei Song
- Abstract要約: 最低1回の試行で最適な教師アシスタントをスケジューリングするための最小蒸留スケジュール(MiniDisc)を提案する。
特に、教師アシスタントのスケール・パフォーマンス・トレードオフに生徒のパフォーマンスが正の相関関係があることから、MiniDiscは、学生に試用せずに教師アシスタントの最適性を測定するために、$lambda$-tradeoffで設計されている。
- 参考スコア(独自算出の注目度): 42.84887732742226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have uncovered that language model distillation is less
effective when facing a large capacity gap between the teacher and the student,
and introduced teacher assistant-based distillation to bridge the gap. As a
connection, the scale and the performance of the teacher assistant is of vital
importance to bring the knowledge from the teacher to the student. However,
existing teacher assistant-based methods require maximally many trials before
scheduling an optimal teacher assistant. To this end, we propose a minimal
distillation schedule (MiniDisc) for scheduling the optimal teacher assistant
in minimally one trial. In particular, motivated by the finding that the
performance of the student is positively correlated to the scale-performance
tradeoff of the teacher assistant, MiniDisc is designed with a
$\lambda$-tradeoff to measure the optimality of the teacher assistant without
trial distillation to the student. MiniDisc then can schedule the optimal
teacher assistant with the best $\lambda$-tradeoff in a sandwich framework.
MiniDisc is evaluated with an extensive set of experiments on GLUE.
Experimental results demonstrate the improved efficiency our MiniDisc compared
to several state-of-the-art baselines. We further apply MiniDisc to a language
model with billions of parameters and show its scalability.
- Abstract(参考訳): 近年の研究では、教師と生徒の間の大きな容量ギャップに直面した場合、言語モデル蒸留は効果が低いことが判明し、そのギャップを埋めるために教師アシスタントベースの蒸留を導入した。
その結果,教員アシスタントの規模と性能は,教師の知識を生徒に伝える上で極めて重要であることがわかった。
しかし、既存の教師アシスタントベース手法では、最適な教師アシスタントをスケジューリングする前に、最大限多くの試行が必要となる。
そこで本研究では,最小1回の試行で最適な教師アシスタントをスケジューリングするための最小蒸留スケジュール(MiniDisc)を提案する。
特に、生徒のパフォーマンスが教師アシスタントのスケールパフォーマンストレードオフと正の相関があることに動機づけられ、minidiscは学生への試用蒸留なしで教師アシスタントの最適性を測定するために$\lambda$-tradeoffで設計されている。
するとMiniDiscは、サンドイッチフレームワークで最高の$\lambda$-tradeoffで最適な教師アシスタントをスケジュールできる。
MiniDiscはGLUEに関する広範な実験で評価されている。
実験の結果,いくつかの最先端ベースラインと比較して,ミニディスクの効率性が向上した。
さらに、数十億のパラメータを持つ言語モデルにMiniDiscを適用し、そのスケーラビリティを示す。
関連論文リスト
- Baby Llama: knowledge distillation from an ensemble of teachers trained
on a small dataset with no performance penalty [0.0]
我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。
我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
論文 参考訳(メタデータ) (2023-08-03T20:20:01Z) - Lifting the Curse of Capacity Gap in Distilling Language Models [19.370268407987652]
我々は,学生に余分なパラメータを課す最小限の専門家(MiniMoE)の混合を提案するが,追加の推論計算はほとんど導入しない。
圧縮レートが$sim$50$times$で、MiniMoEは教師の$sim$95% GLUEスコアを保存する。
論文 参考訳(メタデータ) (2023-05-20T07:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic
Distillation Generalization [36.338614215561805]
タスクに依存しない知識蒸留は、リソース制約のあるシナリオにおいて、大きな事前訓練された言語モデルをデプロイする問題に対処しようとする。
我々は,タスク非依存蒸留におけるマルチタスク学習を活用して,結果の一般化を推し進めることができることを示す。
論文 参考訳(メタデータ) (2023-01-09T15:12:50Z) - Less is More: Task-aware Layer-wise Distillation for Language Model
Compression [68.30497162547766]
層ワイド蒸留は、大きなモデル(すなわち教師モデル)を小さなモデルに圧縮する強力なツールである。
我々は,新しいタスク対応ライEr-wise Distillation (TED)を提案する。
TEDは、各レイヤで生徒と教師の隠された表現を調整するためにタスク認識フィルタを設計する。
論文 参考訳(メタデータ) (2022-10-04T03:36:53Z) - Knowledge Distillation via Weighted Ensemble of Teaching Assistants [18.593268785143426]
知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を移す過程である。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
学生モデル(より小さいモデル)は,複数の指導支援モデルを用いてさらに改善できることが示されている。
論文 参考訳(メタデータ) (2022-06-23T22:50:05Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。