Fugu-MT 論文翻訳(概要): Towards the Law of Capacity Gap in Distilling Language Models

論文の概要: Towards the Law of Capacity Gap in Distilling Language Models

arxiv url: http://arxiv.org/abs/2311.07052v2
Date: Tue, 16 Jul 2024 05:55:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 23:50:29.485584
Title: Towards the Law of Capacity Gap in Distilling Language Models
Title（参考訳）: 蒸留言語モデルにおける容量ギャップの法則に向けて
Authors: Chen Zhang, Dawei Song, Zheyu Ye, Yan Gao,
Abstract要約: 言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。本論文は, より大きい教師は, より小さい教師から蒸留したものに比べて, 必ずしも優れた生徒になるとは限らないことを論じる。最適教師尺度は, モデルアーキテクチャやデータスケールにまたがる学生尺度とほぼ一貫して線形に相関していることを示す。
参考スコア（独自算出の注目度）: 13.630180187069904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language model (LM) distillation is a trending area that aims to distil the knowledge residing in a large teacher LM to a small student one. While various methods have been proposed to maximize the effectiveness of the distillation, significant challenges persist, particularly when there is a substantial capacity gap between the teacher and student LMs. This issue, often referred to as the \textit{curse} of capacity gap, suggests that a larger teacher does not necessarily result in a superior student compared to one distilled from a smaller teacher. In other words, there is likely an optimal teacher yielding the best student along the scaling course of the teacher. Even worse, the curse of capacity gap can not be lifted without additional compute, as indicated in previous studies. In the context of large LMs (LLMs), previously viable approaches become much less meaningful, as it is impossible to distill a large teacher to a good student without notably additional compute. However, the tale is not ever one-sided. It is always not late to acquire that using a large teacher is resource-demanding. Consequently, instead of sticking to lifting the curse, leaving the curse as is and using a small yet adequate teacher should be arguably fine. Even better, in this paper, we take the spirits of scaling law and reveal that the optimal teacher scale is almost consistently and linearly correlated to the student scale across different model architectures and data scales, fortunately turning the curse into a \textit{law} of capacity gap. The law later guides us to distil a 3B student LM (termed \textsc{MiniMA}) from LLaMA2-7B. \textsc{MiniMA} is demonstrated to outperform a wide range of 3B competitors and could even compete with several 7B models.
Abstract（参考訳）: 言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。蒸留の有効性を最大化するために様々な方法が提案されているが、特に教師と学生のLMの間にかなりの容量差がある場合、大きな課題が続いている。この問題は、しばしばキャパシティギャップの「textit{curse}」と呼ばれ、より大きな教師が、より小さな教師から蒸留されたものよりも優れた生徒をもたらすとは限らないことを示唆している。言い換えれば、教師のスケーリングコースに沿って、最高の生徒を得られる最適な教師がいる可能性が高い。さらに悪いことに、以前の研究で示されているように、余分な計算がなければキャパシティギャップの呪いは解けない。大規模な LM (LLMs) の文脈では、特に計算量を増やすことなく、大きな教師を良い生徒に蒸留することは不可能であるため、これまで実現可能であったアプローチは、はるかに意味を欠くものとなる。しかし、この物語は決して片面ではない。大規模な教師を使うことがリソース需要であることを知るのは遅刻しない。そのため、呪いを解き放つ代わりに、呪いをそのまま残し、小さいが適切な教師を使わなければならない。さらに、本論文では、法をスケールする精神を取り入れ、最適な教師スケールが、様々なモデルアーキテクチャやデータスケールにわたる学生スケールとほぼ一貫して線形に相関していることを明らかにし、幸運にも呪いをキャパシティギャップの「textit{law}」に変える。この法則は後に LLaMA2-7B から 3B の学生 LM (termed \textsc{MiniMA}) を除去するように導かれる。 \textsc{MiniMA} は幅広い 3B の競合より優れており、いくつかの 7B モデルと競合することも可能である。

関連論文リスト

Distillation Scaling Laws [9.828322497230053]
本稿では, 計算予算に基づく蒸留モデルの性能推定法と, 学生と教師の配分法を提案する。本研究は, 大規模蒸留に伴うリスクを軽減し, 教員と学生の計算最適配分を可能にした。
論文参考訳（メタデータ） (2025-02-12T17:52:47Z)
Who Taught You That? Tracing Teachers in Model Distillation [23.566776089005963]
学生の先生はアウトプットに基づいて特定できますか? 本稿では, 要約, 質問応答, 指示追従を含む実作業蒸留の目標について検討する。語彙的特徴を用いた識別モデルの設計を行う。
論文参考訳（メタデータ） (2025-02-10T16:48:56Z)
On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。これは、教師LMがそれ自体が真の分布の完全な近似であるからである。オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文参考訳（メタデータ） (2025-02-04T19:26:28Z)
Pre-training Distillation for Large Language Models: A Design Space Exploration [54.67324039434781]
予習蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。我々は, プレトレーニング蒸留の設計空間を探索し, より良い構成を求める実験を行った。我々は, 設計分野の探究が, 予修蒸留の今後の実践に影響を及ぼすことを期待している。
論文参考訳（メタデータ） (2024-10-21T17:16:13Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。 PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文参考訳（メタデータ） (2024-06-05T03:08:25Z)
Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-07T06:48:24Z)
Is Bigger and Deeper Always Better? Probing LLaMA Across Scales and Layers [73.28459749681879]
本稿では,自然言語処理におけるオープンソースの基盤モデルであるLLaMAについて述べる。 LLaMAを生成出力で評価する代わりに、本質的な理解を探索するために複数の選択タスクを設計する。設計された探索タスクに基づいて、いくつかの重要な発見と珍しい発見を公表する。
論文参考訳（メタデータ） (2023-12-07T14:50:41Z)
Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文参考訳（メタデータ） (2023-05-25T12:12:31Z)
Lifting the Curse of Capacity Gap in Distilling Language Models [19.370268407987652]
我々は,学生に余分なパラメータを課す最小限の専門家(MiniMoE)の混合を提案するが,追加の推論計算はほとんど導入しない。圧縮レートが$sim$50$times$で、MiniMoEは教師の$sim$95% GLUEスコアを保存する。
論文参考訳（メタデータ） (2023-05-20T07:30:55Z)
One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。 MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。 PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文参考訳（メタデータ） (2021-06-02T08:42:33Z)
Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文参考訳（メタデータ） (2020-10-15T03:03:36Z)
Contrastive Distillation on Intermediate Representations for Language Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。 CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文参考訳（メタデータ） (2020-09-29T17:31:43Z)
Subclass Distillation [94.18870689772544]
本研究では,教師の一般化能力のほとんどを学生に転移させることが可能であることを示す。既知の、自然なサブクラスが存在するデータセットに対して、教師が同様のサブクラスを学ぶことを示す。サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速く、より良く学習できることを示す。
論文参考訳（メタデータ） (2020-02-10T16:45:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。