論文の概要: BabyLlama-2: Ensemble-Distilled Models Consistently Outperform Teachers
With Limited Data
- arxiv url: http://arxiv.org/abs/2409.17312v1
- Date: Wed, 25 Sep 2024 19:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 12:41:44.033283
- Title: BabyLlama-2: Ensemble-Distilled Models Consistently Outperform Teachers
With Limited Data
- Title(参考訳): BabyLlama-2:Ensemble-Distilled Models Consistently Outformeachs
限定データ
- Authors: Jean-Loup Tastet, Inar Timiryasov
- Abstract要約: 本研究では,BabyLMコンペティションのための1000万語コーパス上で,2人の教師から事前訓練された3億4500万のパラメータモデル蒸留であるBabyLlama-2を提案する。
BLiMPとSuperGLUEのベンチマークでは、BabyLlama-2は、同じデータミックスと教師モデルで、1000万ワードデータセットと1億ワードデータセットの両方でトレーニングされたベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BabyLlama-2, a 345 million parameter model distillation-pretrained
from two teachers on a 10 million word corpus for the BabyLM competition. On
BLiMP and SuperGLUE benchmarks, BabyLlama-2 outperforms baselines trained on
both 10 and 100 million word datasets with the same data mix, as well as its
teacher models. Through an extensive hyperparameter sweep, we demonstrate that
the advantages of distillation cannot be attributed to suboptimal
hyperparameter selection of the teachers. Our findings underscore the need for
further investigation into distillation techniques, particularly in
data-limited settings.
- Abstract(参考訳): 本研究では,BabyLMコンペティションのための1000万語コーパス上で,2人の教師から事前訓練された3億4500万のパラメータモデル蒸留であるBabyLlama-2を提案する。
BLiMPとSuperGLUEのベンチマークでは、BabyLlama-2は、同じデータミックスと教師モデルで、1000万ワードデータセットと1億ワードデータセットの両方でトレーニングされたベースラインを上回っている。
広範にわたるハイパーパラメータスイープを通じて, 蒸留の利点は教師の最適なハイパーパラメータ選択によるものではないことを実証した。
本研究は, 蒸留技術, 特にデータ制限環境でのさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- Baby Llama: knowledge distillation from an ensemble of teachers trained
on a small dataset with no performance penalty [0.0]
我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。
我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
論文 参考訳(メタデータ) (2023-08-03T20:20:01Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - Accurate Knowledge Distillation with n-best Reranking [2.9526110883017433]
我々は,n-best re rankを利用してシーケンスレベル知識蒸留を強化することを提案する(Kim and Rush, 2016)。
我々は、様々な帰納バイアス、客観的関数またはアーキテクチャを持つ多種多様なモデルの集合を活用し、公開可能ないくつかの大きな言語モデルを含む、ラベルとして最高の仮説を選択する。
その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。
論文 参考訳(メタデータ) (2023-05-20T01:53:03Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - ERNIE-Tiny : A Progressive Distillation Framework for Pretrained
Transformer Compression [20.23732233214849]
プレトレーニング言語モデル(PLM)を圧縮するための4段階進行蒸留フレームワークERNIE-Tinyを提案する。
実験によると、4層のERNIE-TinyはGLUEベンチマークで12層のBERTベースの98.0%のパフォーマンスを維持している。
ERNIE-Tinyは、中国の5つのNLPタスクに対する新しい圧縮SOTAを達成し、BERTベースの精度を0.4%上回り、パラメータは7.5倍、推論速度は9.4倍向上した。
論文 参考訳(メタデータ) (2021-06-04T04:00:16Z) - Distilling Double Descent [65.85258126760502]
蒸留とは、別の「教師」モデルでラベル付けされた例に基づいた「学生」モデルを訓練する技法である。
教師モデルが非常にパラメータ化されすぎている場合であっても、非常に大きな保持されていないラベル付きデータセットを使用することで、より"伝統的な"アプローチを上回るモデルが生まれます。
論文 参考訳(メタデータ) (2021-02-13T02:26:48Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。