論文の概要: Baby Llama: knowledge distillation from an ensemble of teachers trained
on a small dataset with no performance penalty
- arxiv url: http://arxiv.org/abs/2308.02019v2
- Date: Tue, 24 Oct 2023 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 23:52:58.931309
- Title: Baby Llama: knowledge distillation from an ensemble of teachers trained
on a small dataset with no performance penalty
- Title(参考訳): Baby Llama: パフォーマンスペナルティのない小さなデータセットで訓練された教師のアンサンブルからの知識蒸留
- Authors: Inar Timiryasov and Jean-Loup Tastet
- Abstract要約: 我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。
我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our submission to the BabyLM challenge, whose goal was to improve
the sample efficiency of language models. We trained an ensemble consisting of
a GPT-2 and small LLaMA models on the developmentally-plausible, 10M-word
BabyLM dataset, then distilled it into a small, 58M-parameter LLaMA model,
which exceeds in performance both of its teachers as well as a similar model
trained without distillation. This suggests that distillation can not only
retain the full performance of the teacher model when the latter is trained on
a sufficiently small dataset; it can exceed it, and lead to significantly
better performance than direct training.
- Abstract(参考訳): 言語モデルのサンプル効率を向上させることを目的として,babylmチャレンジへの提案を行った。
我々は,GPT-2と10MワードのBabyLMデータセットを用いて,GPT-2と小LLaMAモデルからなるアンサンブルを訓練し,それを58MパラメータのLLaMAモデルに蒸留した。
これは、蒸留が十分に小さなデータセットで訓練された場合、教師モデルの完全な性能を維持するだけでなく、それを上回ることができ、直接訓練よりもかなり優れた性能を得られることを示唆する。
関連論文リスト
- Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Knowledge Distillation of Large Language Models [123.36847200257805]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset
& Model for Summarization and Paraphrasing [49.43956605500996]
本稿では,市販の言語モデルから直接タスク固有のデータセットを抽出するフレームワークを提案する。
我々は175Bパラメータ GPT-3 を上回り、桁違いに小さいモデルを蒸留することができる。
提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining [23.418419374791107]
DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。
本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T03:23:16Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。