論文の概要: Towards the Law of Capacity Gap in Distilling Language Models
- arxiv url: http://arxiv.org/abs/2311.07052v3
- Date: Thu, 25 Jul 2024 03:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:46:37.242557
- Title: Towards the Law of Capacity Gap in Distilling Language Models
- Title(参考訳): 蒸留言語モデルにおける容量ギャップの法則に向けて
- Authors: Chen Zhang, Dawei Song, Zheyu Ye, Yan Gao,
- Abstract要約: 言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。
textscMiniMAは、幅広い3Bコンペティターを上回る性能を示しており、いくつかの7Bモデルと競合する可能性さえある。
- 参考スコア(独自算出の注目度): 13.630180187069904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model (LM) distillation is a trending area that aims to distil the knowledge residing in a large teacher LM to a small student one. While various methods have been proposed to maximize the effectiveness of the distillation, significant challenges persist, particularly when there is a substantial capacity gap between the teacher and student LMs. This issue, often referred to as the \textit{curse} of capacity gap, suggests that a larger teacher does not necessarily result in a superior student compared to one distilled from a smaller teacher. In other words, there is likely an optimal teacher yielding the best student along the scaling course of the teacher. However, the curse of capacity gap can not be tackled without notable compute overhead, as indicated in previous studies. In the context of large LMs (LLMs), previously viable approaches become much less meaningful, as it is an impossible triangle to distill an expected student from an optimal teacher student with small compute overhead. Fortunately, the impossible triangle can fortunately be possible provided an inducted \textit{law} of capacity gap. In this paper, we take the spirits of scaling law and reveal that the optimal teacher scale almost consistently follows a linear scaling with the student scale across different model architectures and data scales. The law later guides us to distil a 3B student LM (termed \textsc{MiniMA}) from LLaMA2-7B. \textsc{MiniMA} is demonstrated to outperform a wide range of 3B competitors and could even compete with several 7B models.
- Abstract(参考訳): 言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。
蒸留の有効性を最大化するために様々な方法が提案されているが、特に教師と学生のLMの間にかなりの容量差がある場合、大きな課題が続いている。
この問題は、しばしばキャパシティギャップの「textit{curse}」と呼ばれ、より大きな教師が、より小さな教師から蒸留されたものよりも優れた生徒をもたらすとは限らないことを示唆している。
言い換えれば、教師のスケーリングコースに沿って、最高の生徒を得られる最適な教師がいる可能性が高い。
しかし、以前の研究で示されているように、計算オーバーヘッドが顕著でなければキャパシティギャップの呪いに対処できない。
大規模LM(LLMs)の文脈では、計算オーバーヘッドの少ない最適教師の生徒から期待される生徒を抽出することは不可能な三角形であるため、これまで実現可能であったアプローチは、はるかに意味をなさない。
幸いなことに、不可能な三角形は、キャパシティギャップのインダクテッド \textit{law} が与えられると幸運にも可能である。
本稿では,法則のスケーリングの精神を考察し,教師の最適スケールが,様々なモデルアーキテクチャやデータスケールにまたがる学生のスケールにほぼ一貫した線形スケールに従うことを明らかにする。
この法則は後に LLaMA2-7B から 3B の学生 LM (termed \textsc{MiniMA}) を除去するように導かれる。
\textsc{MiniMA} は幅広い 3B の競合より優れており、いくつかの 7B モデルと競合することも可能である。
関連論文リスト
- Who Taught You That? Tracing Teachers in Model Distillation [23.566776089005963]
学生の先生はアウトプットに基づいて特定できますか?
本稿では, 要約, 質問応答, 指示追従を含む実作業蒸留の目標について検討する。
語彙的特徴を用いた識別モデルの設計を行う。
論文 参考訳(メタデータ) (2025-02-10T16:48:56Z) - On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。
これは、教師LMがそれ自体が真の分布の完全な近似であるからである。
オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文 参考訳(メタデータ) (2025-02-04T19:26:28Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Lifting the Curse of Capacity Gap in Distilling Language Models [19.370268407987652]
我々は,学生に余分なパラメータを課す最小限の専門家(MiniMoE)の混合を提案するが,追加の推論計算はほとんど導入しない。
圧縮レートが$sim$50$times$で、MiniMoEは教師の$sim$95% GLUEスコアを保存する。
論文 参考訳(メタデータ) (2023-05-20T07:30:55Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Subclass Distillation [94.18870689772544]
本研究では,教師の一般化能力のほとんどを学生に転移させることが可能であることを示す。
既知の、自然なサブクラスが存在するデータセットに対して、教師が同様のサブクラスを学ぶことを示す。
サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速く、より良く学習できることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。