論文の概要: Lifting the Curse of Capacity Gap in Distilling Language Models
- arxiv url: http://arxiv.org/abs/2305.12129v1
- Date: Sat, 20 May 2023 07:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:26:07.206925
- Title: Lifting the Curse of Capacity Gap in Distilling Language Models
- Title(参考訳): 蒸留言語モデルにおけるキャパシティギャップの呪いの解消
- Authors: Chen Zhang, Yang Yang, Jiahao Liu, Jingang Wang, Yunsen Xian, Benyou
Wang, Dawei Song
- Abstract要約: 我々は,学生に余分なパラメータを課す最小限の専門家(MiniMoE)の混合を提案するが,追加の推論計算はほとんど導入しない。
圧縮レートが$sim$50$times$で、MiniMoEは教師の$sim$95% GLUEスコアを保存する。
- 参考スコア(独自算出の注目度): 19.370268407987652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (LMs) have shown compelling performance on various
downstream tasks, but unfortunately they require a tremendous amount of
inference compute. Knowledge distillation finds a path to compress LMs to small
ones with a teacher-student paradigm. However, when the capacity gap between
the teacher and the student is large, a curse of capacity gap appears, invoking
a deficiency in distilling LMs. While a few studies have been carried out to
fill the gap, the curse is not yet well tackled. In this paper, we aim at
lifting the curse of capacity gap via enlarging the capacity of the student
without notably increasing the inference compute. Largely motivated by sparse
activation regime of mixture of experts (MoE), we propose a mixture of minimal
experts (MiniMoE), which imposes extra parameters to the student but introduces
almost no additional inference compute. Experimental results on GLUE and CoNLL
demonstrate the curse of capacity gap is lifted by the magic of MiniMoE to a
large extent. MiniMoE also achieves the state-of-the-art performance at small
FLOPs compared with a range of competitive baselines. With a compression rate
as much as $\sim$50$\times$, MiniMoE preserves $\sim$95\% GLUE score of the
teacher.
- Abstract(参考訳): 事前訓練された言語モデル(LM)は、様々な下流タスクにおいて魅力的なパフォーマンスを示しているが、残念ながら膨大な量の推論計算を必要とする。
知識蒸留は、教師と学生のパラダイムでlmsを小さなものに圧縮する道を見出す。
しかし,教師と生徒の容量ギャップが大きくなると,容量ギャップの呪いが出現し,LMの蒸留に不足が生じている。
ギャップを埋めるためにいくつかの研究が行われてきたが、この呪いはまだうまく取り組んでいない。
本稿では,学生のキャパシティを増大させることで,推論計算量を増やすことなく,キャパシティギャップの呪いを解くことを目的とする。
moe(mixed of experts)のスパースアクティベーション・レジーム(sparse activation regime of mixture of experts)に主に動機づけられ、学生に余分なパラメータを課すが、ほとんど追加の推論計算は導入しないミニマル・エキスパート(minimoe)の混合物を提案する。
GLUEとCoNLLの実験結果は,MiniMoEの魔法によってキャパシティギャップの呪いがかなり持ち上げられることを示した。
MiniMoEは、様々な競争上のベースラインと比較して、小さなFLOPにおける最先端のパフォーマンスも達成している。
圧縮レートは$\sim$50$\times$と同じで、MiniMoEは教師のGLUEスコアを$\sim$95\%保存する。
関連論文リスト
- MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文 参考訳(メタデータ) (2024-10-22T17:40:32Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models [2.9449838351181374]
本研究では, 効率的なプログレッシブ・テラス・プルーニング法 (NutePrune) を提案する。
NutePruneは、1つの無傷モデルのみをロードし、さまざまなマスクやLoRAモジュールと統合することで、過剰なメモリコストを軽減する。
LLaMA-7B実験では、NutePruneはオリジナルのモデルの97.17%を20%の間隔で、95.07%を25%の間隔で維持している。
論文 参考訳(メタデータ) (2024-02-15T08:03:12Z) - Towards the Law of Capacity Gap in Distilling Language Models [13.630180187069904]
言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。
textscMiniMAは、幅広い3Bコンペティターを上回る性能を示しており、いくつかの7Bモデルと競合する可能性さえある。
論文 参考訳(メタデータ) (2023-11-13T03:36:18Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining [23.418419374791107]
DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。
本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T03:23:16Z) - Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity
Matching [12.833080411053842]
言語間知識蒸留は、言語間類似性マッチングタスクのための事前訓練されたモデルの性能を著しく向上させることができる。
小型ながら高性能なクロスランガルモデルを構築するための多段階蒸留フレームワークを提案する。
提案手法では,XLM-RとMiniLMのサイズを50%以上圧縮できるが,性能は1%程度しか低下しない。
論文 参考訳(メタデータ) (2022-09-13T10:33:04Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。