論文の概要: Efficient Knowledge Distillation via Curriculum Extraction
- arxiv url: http://arxiv.org/abs/2503.17494v1
- Date: Fri, 21 Mar 2025 19:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:48.751619
- Title: Efficient Knowledge Distillation via Curriculum Extraction
- Title(参考訳): カリキュラム抽出による効率的な知識蒸留
- Authors: Shivam Gupta, Sushrut Karmalkar,
- Abstract要約: 完全に訓練された教師ネットワークからカリキュラムを抽出できることを示し, 抽出したカリキュラムは, プログレッシブ蒸留と同等の効率性が得られることを示した。
提案手法は, 単発蒸留よりも優れており, 2層ネットワークを用いたスパースパリティ学習において, プログレッシブ蒸留と類似した性能が得られる。
- 参考スコア(独自算出の注目度): 9.320038077848709
- License:
- Abstract: Knowledge distillation is a technique used to train a small student network using the output generated by a large teacher network, and has many empirical advantages~\citep{Hinton2015DistillingTK}. While the standard one-shot approach to distillation only uses the output of the final teacher network, recent work~\citep{panigrahi2024progressive} has shown that using intermediate checkpoints from the teacher's training process as an implicit ``curriculum'' for progressive distillation can significantly speed up training. However, such schemes require storing these checkpoints, and often require careful selection of the intermediate checkpoints to train on, which can be impractical for large-scale training. In this paper, we show that a curriculum can be \emph{extracted} from just the fully trained teacher network, and that this extracted curriculum can give similar efficiency benefits to those of progressive distillation. Our extraction scheme is natural; we use a random projection of the hidden representations of the teacher network to progressively train the student network, before training using the output of the full network. We show that our scheme significantly outperforms one-shot distillation and achieves a performance similar to that of progressive distillation for learning sparse parities with two-layer networks, and provide theoretical guarantees for this setting. Additionally, we show that our method outperforms one-shot distillation even when using transformer-based architectures, both for sparse-parity learning, and language modeling tasks.
- Abstract(参考訳): 知識蒸留は、大規模な教師ネットワークによって生成された出力を用いて、小さな学生ネットワークを訓練するために用いられる技術であり、多くの経験的利点がある。
蒸留への標準的なワンショットアプローチは最終教師ネットワークの出力のみを用いるが、最近の研究は、進行蒸留のための暗黙の「カリキュラム」として教師のトレーニングプロセスから中間チェックポイントを使用することで、トレーニングを著しく高速化できることを示した。
しかし、このようなスキームはこれらのチェックポイントを格納する必要があるため、トレーニングする中間チェックポイントを慎重に選択する必要があることが多いため、大規模なトレーニングでは実用的ではない。
本稿では, 完全に訓練された教師ネットワークからカリキュラムを抽出できることを示し, 抽出したカリキュラムは, プログレッシブ蒸留に類似した効率性をもたらすことを示した。
我々は教師ネットワークの隠れ表現をランダムに投影して、学生ネットワークを段階的に訓練し、全ネットワークの出力を用いて訓練する。
提案手法は,2層ネットワークを用いたスパースパリティ学習において,一発蒸留よりも有意に優れ,プログレッシブ蒸留と類似した性能を実現し,理論的保証を提供する。
さらに, この手法は, スパースパーティ学習や言語モデリングタスクにおいて, トランスフォーマーベースアーキテクチャを用いた場合においても, 単発蒸留よりも優れていることを示す。
関連論文リスト
- Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。
本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - Contrastive Representation Distillation via Multi-Scale Feature Decoupling [0.49157446832511503]
知識蒸留は, パラメータサイズを増大させることなく, より小さな学生ネットワークの性能を向上させる技術である。
特徴伝達プロセスにおいて,局所的な特徴を個別に処理し,コントラスト学習と統合するマルチスケールデカップリングを初めて導入する。
提案手法は,計算コストを削減するだけでなく,効率も向上し,シングルバッチサンプルのみを用いた学生ネットワークの性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-09T10:03:18Z) - Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits [25.140055086630838]
本論文では,畳み込みニューラルネットワーク(CNN)の分類性能を改善するための知識蒸留に基づく新しい学習法を提案する。
教師が生徒にのみ教える従来の蒸留の概念とは異なり、生徒は他の生徒や教師がもっとよく学ぶのを助けることができる。
論文 参考訳(メタデータ) (2021-04-01T07:10:36Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Self-supervised Knowledge Distillation for Few-shot Learning [123.10294801296926]
少数のサンプルだけで秩序分布から素早く学習できるため、ショットラーニングは有望な学習パラダイムである。
数ショットの学習タスクにおいて,深層ニューラルネットワークの表現能力を向上させるための簡単な手法を提案する。
実験により、第一段階においても、自己超越は現在の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-06-17T11:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。