論文の概要: Towards the Law of Capacity Gap in Distilling Language Models
- arxiv url: http://arxiv.org/abs/2311.07052v4
- Date: Wed, 30 Jul 2025 16:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.624119
- Title: Towards the Law of Capacity Gap in Distilling Language Models
- Title(参考訳): 蒸留言語モデルにおける容量ギャップの法則に向けて
- Authors: Chen Zhang, Qiuchi Li, Dawei Song, Zheyu Ye, Yan Gao, Yan Hu,
- Abstract要約: 言語モデル (LM) 蒸留は、大きな教師のLMにおける知識を小学生に蒸留することを目的としている。
LM蒸留に直面する重要な問題として、上級生はより大きな生徒ではなく比較的小規模な教師から生じることが多い。
本稿では, 広い範囲の3B LMを蒸留するための予備研究から得られた容量ギャップのテクスチャを提供する。
- 参考スコア(独自算出の注目度): 17.94199083434851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model (LM) distillation aims at distilling the knowledge in a large teacher LM to a small student one. As a critical issue facing LM distillation, a superior student often arises from a teacher of a relatively small scale instead of a larger one, especially in the presence of substantial capacity gap between the teacher and student. This issue, often referred to as the \textit{curse of capacity gap}, suggests that there is likely an optimal teacher yielding the best-performing student along the scaling course of the teacher. Consequently, distillation trials on teachers of a wide range of scales are called for to determine the optimal teacher, which becomes computationally intensive in the context of large LMs (LLMs). This paper addresses this critical bottleneck by providing the \textit{law of capacity gap} inducted from a preliminary study on distilling a broad range of small-scale (<3B) LMs, where the optimal teacher consistently scales linearly with the student scale across different model and data scales. By extending the law to LLM distillation on a larger scale (7B), we succeed in obtaining versatile LLMs that outperform a wide array of competitors.
- Abstract(参考訳): 言語モデル (LM) 蒸留は、大きな教師のLMにおける知識を小学生に蒸留することを目的としている。
LM蒸留に直面する重要な問題として、優れた学生は、特に教師と生徒の実質的な容量ギャップの存在下で、より大規模なものではなく、比較的小規模の教師から生じることが多い。
この問題は、しばしば「キャパシティギャップのtextit{curse of capacity gap}」と呼ばれ、教師のスケーリングコースに沿って、最高のパフォーマンスの学生を輩出す最適な教師が存在することを示唆している。
その結果,広い範囲の教員を対象とした蒸留試験が,大規模LM(LLM)の文脈において計算集約的な最適な教師を決定するために求められた。
本稿では,様々なモデルとデータスケールにまたがって,最適教師が一貫して生徒のスケールと線形にスケールする,広範囲の小規模 (3B) LMの蒸留に関する予備研究から得られた,‘textit{law of capacity gap’(キャパシティギャップの法則)を導出することによって,このボトルネックに対処する。
法則を LLM 蒸留に拡張することにより (7B) , 幅広い競争相手に勝る多目的 LLM を得ることに成功した。
関連論文リスト
- Who Taught You That? Tracing Teachers in Model Distillation [23.566776089005963]
学生の先生はアウトプットに基づいて特定できますか?
本稿では, 要約, 質問応答, 指示追従を含む実作業蒸留の目標について検討する。
語彙的特徴を用いた識別モデルの設計を行う。
論文 参考訳(メタデータ) (2025-02-10T16:48:56Z) - On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。
これは、教師LMがそれ自体が真の分布の完全な近似であるからである。
オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文 参考訳(メタデータ) (2025-02-04T19:26:28Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Is Bigger and Deeper Always Better? Probing LLaMA Across Scales and
Layers [73.28459749681879]
本稿では,自然言語処理におけるオープンソースの基盤モデルであるLLaMAについて述べる。
LLaMAを生成出力で評価する代わりに、本質的な理解を探索するために複数の選択タスクを設計する。
設計された探索タスクに基づいて、いくつかの重要な発見と珍しい発見を公表する。
論文 参考訳(メタデータ) (2023-12-07T14:50:41Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Lifting the Curse of Capacity Gap in Distilling Language Models [19.370268407987652]
我々は,学生に余分なパラメータを課す最小限の専門家(MiniMoE)の混合を提案するが,追加の推論計算はほとんど導入しない。
圧縮レートが$sim$50$times$で、MiniMoEは教師の$sim$95% GLUEスコアを保存する。
論文 参考訳(メタデータ) (2023-05-20T07:30:55Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Subclass Distillation [94.18870689772544]
本研究では,教師の一般化能力のほとんどを学生に転移させることが可能であることを示す。
既知の、自然なサブクラスが存在するデータセットに対して、教師が同様のサブクラスを学ぶことを示す。
サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速く、より良く学習できることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。