論文の概要: Distillation Scaling Laws
- arxiv url: http://arxiv.org/abs/2502.08606v2
- Date: Fri, 25 Jul 2025 16:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:26.844057
- Title: Distillation Scaling Laws
- Title(参考訳): 蒸留スケーリング法則
- Authors: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb,
- Abstract要約: 本稿では, 計算予算に基づく蒸留モデルの性能推定法と, 学生と教師の配分法を提案する。
本研究は, 大規模蒸留に伴うリスクを軽減し, 教員と学生の計算最適配分を可能にした。
- 参考スコア(独自算出の注目度): 9.828322497230053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings mitigate the risks associated with large-scale distillation by enabling compute-optimal allocation for both the teacher and student to maximize student performance. We provide compute-optimal distillation recipes for two key scenarios: when a teacher already exists, and when a teacher needs training. In settings involving many students or an existing teacher, distillation outperforms supervised learning up to a compute level that scales predictably with student size. Conversely, if only one student is to be distilled and a teacher also requires training, supervised learning is generally preferable. Additionally, our large-scale study of distillation increases our understanding of the process and helps inform experimental design.
- Abstract(参考訳): 本稿では, 計算予算に基づく蒸留モデルの性能推定法と, 学生と教師の配分法を提案する。
本研究は, 教員, 学生双方の計算最適割当により, 大規模蒸留に伴うリスクを軽減し, 学生のパフォーマンスを最大化することを目的とするものである。
我々は,教師がすでに存在する場合と,教員が必要な場合の2つの主要なシナリオに対して,計算最適蒸留レシピを提供する。
多くの生徒や既存の教師が関わる環境では、蒸留は教師による学習を、生徒の規模で予測可能な計算レベルまで上回ります。
逆に、一人の生徒だけが蒸留され、教師も訓練を必要とする場合、教師付き学習が好まれる。
さらに, 蒸留に関する大規模研究により, プロセスの理解が向上し, 実験設計に役立てることができた。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - UNDO: Understanding Distillation as Optimization [9.100811514331498]
UNDO: Understanding Distillation as Optimization frameworkを紹介します。
各イテレーションは、生徒の学習不足を直接対象とし、教師に調整された強化された合理性を提供する動機を与える。
様々な数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準の1段階蒸留法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-03T12:18:51Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。
本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - PROD: Progressive Distillation for Dense Retrieval [65.83300173604384]
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
論文 参考訳(メタデータ) (2022-09-27T12:40:29Z) - Controlling the Quality of Distillation in Response-Based Network
Compression [0.0]
圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
論文 参考訳(メタデータ) (2021-12-19T02:53:51Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。