論文の概要: Distillation Scaling Laws
- arxiv url: http://arxiv.org/abs/2502.08606v1
- Date: Wed, 12 Feb 2025 17:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:51:15.697353
- Title: Distillation Scaling Laws
- Title(参考訳): 蒸留スケーリング法則
- Authors: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb,
- Abstract要約: 我々は,計算予算と学生と教師の割り当てに基づいて,蒸留モデルの性能を推定する蒸留スケーリング法を提案する。
本研究は, 大規模蒸留によるリスクを低減し, 教員モデルと学生モデルの両方に計算割り当てを行うことで, 学生のパフォーマンスを最大化できることを示した。
- 参考スコア(独自算出の注目度): 9.828322497230053
- License:
- Abstract: We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.
- Abstract(参考訳): 我々は,計算予算と学生と教師の割り当てに基づいて,蒸留モデルの性能を推定する蒸留スケーリング法を提案する。
本研究は, 大規模蒸留によるリスクを低減し, 教員モデルと学生モデルの両方に計算割り当てを行うことで, 学生のパフォーマンスを最大化できることを示した。
我々はいつ最適蒸留法を提供する。
1) 教師が存在する、又は
2)教師は訓練が必要である。
多くの学生が蒸留されるか、あるいは既に教師が存在している場合、蒸留は学生の規模で予測可能な計算レベルになるまで、教師による事前訓練よりも優れる。
一人の生徒が蒸留され、教師も訓練が必要な場合、代わりに教師付き学習を行う必要がある。
さらに, 蒸留に関する大規模研究を通じて, 蒸留の理解を深め, 実験設計に資する知見を提供する。
関連論文リスト
- Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。
本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - PROD: Progressive Distillation for Dense Retrieval [65.83300173604384]
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
論文 参考訳(メタデータ) (2022-09-27T12:40:29Z) - Controlling the Quality of Distillation in Response-Based Network
Compression [0.0]
圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
論文 参考訳(メタデータ) (2021-12-19T02:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。