論文の概要: Towards the Law of Capacity Gap in Distilling Language Models
- arxiv url: http://arxiv.org/abs/2311.07052v1
- Date: Mon, 13 Nov 2023 03:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:37:27.961793
- Title: Towards the Law of Capacity Gap in Distilling Language Models
- Title(参考訳): 蒸留言語モデルにおける容量ギャップの法則に向けて
- Authors: Chen Zhang, Dawei Song, Zheyu Ye, Yan Gao
- Abstract要約: 言語モデル (LM) 蒸留は、大きな教師のLMに居住する知識を小さな学生に消し去ることを目的とした、流行の分野である。
この痛みは、主にキャパシティギャップの呪いによって引き起こされるものであり、これは、より大きな教師のLMが常により良い学生のLMにつながるとは限らないことを記述している。
本稿では,学生の規模やアーキテクチャによって,最適なキャパシティギャップがほぼ一致していることを明らかにする。
- 参考スコア(独自算出の注目度): 14.88999266890554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model (LM) distillation is a trending area that aims to distil the
knowledge resided in a large teacher LM to a small student one. While various
methods have been proposed to push the distillation to its limits, it is still
a pain distilling LMs when a large capacity gap is exhibited between the
teacher and the student LMs. The pain is mainly resulted by the curse of
capacity gap, which describes that a larger teacher LM cannot always lead to a
better student LM than one distilled from a smaller teacher LM due to the
affect of capacity gap increment. That is, there is likely an optimal point
yielding the best student LM along the scaling course of the teacher LM. Even
worse, the curse of capacity gap can be only partly yet not fully lifted as
indicated in previous studies.
However, the tale is not ever one-sided. Although a larger teacher LM has
better performance than a smaller teacher LM, it is much more
resource-demanding especially in the context of recent large LMs (LLMs).
Consequently, instead of sticking to lifting the curse, leaving the curse as is
should be arguably fine. Even better, in this paper, we reveal that the optimal
capacity gap is almost consistent across different student scales and
architectures, fortunately turning the curse into the law of capacity gap. The
law later guides us to distil a 3B student LM (termed MiniMA) from a 7B teacher
LM (adapted LLaMA2-7B). MiniMA is demonstrated to yield a new
compute-performance pareto frontier among existing 3B LMs on commonly used
benchmarks, and its instruction-tuned version (termed MiniChat) outperforms a
wide range of 3B competitors in GPT4 evaluation and could even compete with
several 7B chat models.
- Abstract(参考訳): 言語モデル (LM) 蒸留は、大きな教師のLMに居住する知識を小さな学生に消し去ることを目的とした、流行の分野である。
蒸留を限界まで押し上げるための様々な方法が提案されているが、教師と学生のLMの間に大きな容量ギャップが示されるときはまだ、痛みを蒸留するLMである。
この痛みは主にキャパシティギャップの呪いによって引き起こされ、より大きな教師lmはキャパシティギャップインクリメントの影響により、より小さな教師lmから蒸留された生徒lmよりも常に優れた生徒lmを導くことはできない。
つまり、教師LMのスケーリングコースに沿って、最高の学生LMを得る最適なポイントがある可能性が高い。
さらに悪いことに、キャパシティギャップの呪いは、以前の研究で示されたように部分的にしか完全には持ち上げられていない。
しかし、物語は決して一方的ではない。
より大きな教師lmは、より小さな教師lmよりも優れた性能を持つが、特に最近の大きなlms(llms)の文脈では、リソースが要求される。
その結果、呪いを持ち上げる代わりに、呪いをそのままにしておくことは間違いなく問題ない。
さらに,本稿では,最適なキャパシティギャップが,学生のスケールやアーキテクチャによってほぼ一致していることを明らかにし,幸運にもキャパシティギャップの法則に転換した。
その後、この法律は7Bの教師LM(LLaMA2-7B)から3Bの学生LM(MiniMA)を駆除するよう案内します。
MiniMAは、一般的なベンチマークで既存の3B LMの中で新しい計算性能のパレートフロンティアが得られることが実証されており、命令調整されたバージョン(MiniChatと呼ばれる)は、GPT4の評価において幅広い3B競合より優れており、いくつかの7Bチャットモデルと競合する可能性さえある。
関連論文リスト
- How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study [54.91212829143966]
MetaのLLaMAファミリーは、最も強力なオープンソースのLarge Language Model(LLM)シリーズの1つになった。
我々はLLaMA3の低ビット幅への量子化能力について検討する。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - TinyLLM: Learning a Small Student from Multiple Large Language Models [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。
そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。
論文 参考訳(メタデータ) (2024-02-07T06:48:24Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Lifting the Curse of Capacity Gap in Distilling Language Models [19.370268407987652]
我々は,学生に余分なパラメータを課す最小限の専門家(MiniMoE)の混合を提案するが,追加の推論計算はほとんど導入しない。
圧縮レートが$sim$50$times$で、MiniMoEは教師の$sim$95% GLUEスコアを保存する。
論文 参考訳(メタデータ) (2023-05-20T07:30:55Z) - Can Large Language Models Truly Understand Prompts? A Case Study with
Negated Prompts [19.43042432631113]
これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。
本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
論文 参考訳(メタデータ) (2022-09-26T14:05:10Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。