論文の概要: Large Language Model Distillation Doesn't Need a Teacher
- arxiv url: http://arxiv.org/abs/2305.14864v1
- Date: Wed, 24 May 2023 08:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:22:38.761034
- Title: Large Language Model Distillation Doesn't Need a Teacher
- Title(参考訳): 教師を必要としない大規模言語モデル蒸留
- Authors: Ananya Harsh Jha, Dirk Groeneveld, Emma Strubell, Iz Beltagy
- Abstract要約: 大規模言語モデルに対する教師なしタスク非依存蒸留法を提案する。
提案手法は,13のゼロショットエンドタスクにおいて,バニラ蒸留法とパープレキシティと精度を一致または比較することにより,モデルサイズを50%削減することができる。
- 参考スコア(独自算出の注目度): 22.349569750864774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation trains a smaller student model to match the output
distribution of a larger teacher to maximize the end-task performance under
computational constraints. However, existing literature on language model
distillation primarily focuses on compressing encoder-only models that are then
specialized by task-specific supervised finetuning. We need to rethink this
setup for more recent large language models with tens to hundreds of billions
of parameters. Task-specific finetuning is impractical at this scale, and model
performance is often measured using zero/few-shot prompting. Thus, in this
work, we advocate for task-agnostic zero-shot evaluated distillation for large
language models without access to end-task finetuning data. We propose a
teacher-free task-agnostic distillation method, which uses a truncated version
of the larger model for initialization, and continues pretraining this model
using a language modeling objective. Our teacher-free method shines in a
distillation regime where it is infeasible to fit both the student and teacher
into the GPU memory. Despite its simplicity, our method can effectively reduce
the model size by 50\%, matching or outperforming the vanilla distillation
method on perplexity and accuracy on 13 zero-shot end-tasks while being 1.5x
computationally efficient.
- Abstract(参考訳): 知識蒸留は、より小さな学生モデルを訓練し、より大きな教師の出力分布と一致させ、計算制約下でのエンドタスク性能を最大化する。
しかし、既存の言語モデル蒸留に関する文献では、主にエンコーダのみのモデルを圧縮することに焦点を当てている。
このセットアップを、数十億から数十億のパラメータを持つ、最近の大規模言語モデルに再考する必要があります。
タスク固有の微調整はこのスケールでは非現実的であり、モデル性能はゼロ/フェーショットプロンプトを用いてしばしば測定される。
そこで本研究では,エンドタスク微調整データにアクセスせずに大規模言語モデルのタスク非依存ゼロショット蒸留を提唱する。
本研究では,大規模モデルの切り抜き版を初期化に用い,言語モデルを用いた事前学習を継続する,教師不要なタスク非依存蒸留法を提案する。
教師なしの方法は、学生と教師の両方をGPUメモリに収めることが不可能な蒸留体制において輝く。
その単純さにもかかわらず、この方法は計算効率が1.5倍でありながら、13個のゼロショットエンドタスクにおけるバニラ蒸留法とパープレキシティと精度を一致または上回って、モデルサイズを効果的に50\%削減することができる。
関連論文リスト
- Lossless and Near-Lossless Compression for Foundation Models [11.307357041746865]
モデル圧縮性の原因を調査し,モデルに適した圧縮変種を導入し,圧縮性グループに分類する。
我々はこれらの手法がHuggingFaceのような大きなモデルハブからダウンロードされたネットワークトラフィックの1ヶ月あたりExaByte以上を節約できると見積もっている。
論文 参考訳(メタデータ) (2024-04-05T16:52:55Z) - Tiny Models are the Computational Saver for Large Models [1.8350044465969415]
本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。
この手法をImageNet-1k分類で評価した結果,最大90%の演算数を削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-26T14:14:30Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Structural Dropout for Model Width Compression [1.52292571922932]
既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。
本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
論文 参考訳(メタデータ) (2022-05-13T21:50:57Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。