論文の概要: Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget
- arxiv url: http://arxiv.org/abs/2404.19319v1
- Date: Tue, 30 Apr 2024 07:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:04:27.119850
- Title: Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget
- Title(参考訳): 固定(計算)予算下におけるスクラッチからの知識蒸留と事前学習
- Authors: Minh Duc Bui, Fabian David Schmidt, Goran Glavaš, Katharina von der Wense,
- Abstract要約: LM事前トレーニングのスケーリング法則は、より小さなモデルがより多くのデータでトレーニングされた場合、より大きなモデルとのギャップを埋める可能性があることを示唆している。
マスク言語モデリング(MLM)のいくつかのKD戦略に対して,スクラッチからの事前学習を公平な実験で比較した。
固定計算予算の下でデータを繰り返す必要がある場合、KDはスクラッチから事前学習よりも大きな利得が得られることがわかった。
- 参考スコア(独自算出の注目度): 2.53740603524637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to standard language model (LM) pretraining (i.e., from scratch), Knowledge Distillation (KD) entails an additional forward pass through a teacher model that is typically substantially larger than the target student model. As such, KD in LM pretraining materially slows down throughput of pretraining instances vis-a-vis pretraining from scratch. Scaling laws of LM pretraining suggest that smaller models can close the gap to larger counterparts if trained on more data (i.e., processing more tokens)-and under a fixed computation budget, smaller models are able be process more data than larger models. We thus hypothesize that KD might, in fact, be suboptimal to pretraining from scratch for obtaining smaller LMs, when appropriately accounting for the compute budget. To test this, we compare pretraining from scratch against several KD strategies for masked language modeling (MLM) in a fair experimental setup, with respect to amount of computation as well as pretraining data. Downstream results on GLUE, however, do not confirm our hypothesis: while pretraining from scratch performs comparably to ordinary KD under a fixed computation budget, more sophisticated KD strategies, namely TinyBERT (Jiao et al., 2020) and MiniLM (Wang et al., 2023), outperform it by a notable margin. We further find that KD yields larger gains over pretraining from scratch when the data must be repeated under the fixed computation budget.
- Abstract(参考訳): 標準言語モデル(LM)の事前訓練(例えば、スクラッチから)と比較して、知識蒸留(KD)は、典型的には対象の学生モデルよりもかなり大きい教師モデルを通る追加のフォワードパスを必要とする。
このように、LMプレトレーニングにおけるKDは、スクラッチから事前トレーニングする事前トレーニングインスタンスのスループットを著しく遅くする。
LM事前トレーニングの法則のスケーリングにより、より小さなモデルでは、より多くのデータ(例えば、より多くのトークンを処理する)で訓練された場合、より大きなモデルとのギャップを埋めることが可能であり、固定された計算予算の下では、より小さなモデルはより大きなモデルよりも多くのデータを処理することができる。
そこで我々は,計算予算を適切に考慮すれば,KD がスクラッチから事前学習に最適である,という仮説を立てた。
これをテストするために,マスク付き言語モデリング(MLM)のいくつかのKD戦略を,計算量や事前学習データに関して,公平な実験で比較した。
しかし、GLUEのダウンストリームの結果は、スクラッチからの事前トレーニングは、固定された計算予算の下で通常のKDと同等に実行されるが、より洗練されたKD戦略であるTinyBERT(Jiao et al , 2020)とMiniLM(Wang et al , 2023)は、顕著なマージンでそれを上回ります。
さらに、KDは、固定された計算予算の下でデータを繰り返す必要がある場合、スクラッチから事前学習よりも大きなゲインを得る。
関連論文リスト
- Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文 参考訳(メタデータ) (2024-10-22T17:40:32Z) - PPM : A Pre-trained Plug-in Model for Click-through Rate Prediction [10.341207266687494]
クリックスルー率(CTR)予測はレコメンダシステムにおける中核的なタスクである。
我々は、textbfP$re-trained $textbfP$lug-in CTR $textbfM$odel、すなわちPPMを提案する。
論文 参考訳(メタデータ) (2024-03-15T06:42:23Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Language Modelling via Learning to Rank [15.88754612997207]
言語モデリングを多ラベル構造化予測タスクとみなす。
トップ$kのランクを避けるために、事前訓練されたLM(GPT-2, BERT, Born-Again)モデルを用いて生成する。
また、N$-gramsを用いて、事前学習したLMを必要とせずにランクを生成する非確率的な教師を作成する方法を開発した。
論文 参考訳(メタデータ) (2021-10-13T18:03:47Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。