論文の概要: Reduce, Reuse, Recycle: Improving Training Efficiency with Distillation
- arxiv url: http://arxiv.org/abs/2211.00683v1
- Date: Tue, 1 Nov 2022 18:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:27:45.654419
- Title: Reduce, Reuse, Recycle: Improving Training Efficiency with Distillation
- Title(参考訳): 減量、再利用、リサイクル:蒸留による訓練効率の向上
- Authors: Cody Blakeney, Jessica Zosa Forde, Jonathan Frankle, Ziliang Zong,
Matthew L. Leavitt
- Abstract要約: 我々は,ImageNet と BERT で訓練した ResNet-50 と C4 で訓練した ResNet-50 を用いて,蒸留を加速させる方法について検討した。
GLUEで評価すると,ImageNetでトレーニングしたResNet-50の1.96倍,BERTで最大1.42倍のトレーニングを高速化できることがわかった。
また,低品質モデルを教師として用いた場合においても,蒸留によるトレーニングは,蒸留なしでのトレーニングよりもほぼ常に効率的であることがわかった。
- 参考スコア(独自算出の注目度): 16.518388294082673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods for improving the efficiency of deep network training (i.e. the
resources required to achieve a given level of model quality) are of immediate
benefit to deep learning practitioners. Distillation is typically used to
compress models or improve model quality, but it's unclear if distillation
actually improves training efficiency. Can the quality improvements of
distillation be converted into training speed-ups, or do they simply increase
final model quality with no resource savings? We conducted a series of
experiments to investigate whether and how distillation can be used to
accelerate training using ResNet-50 trained on ImageNet and BERT trained on C4
with a masked language modeling objective and evaluated on GLUE, using common
enterprise hardware (8x NVIDIA A100). We found that distillation can speed up
training by up to 1.96x in ResNet-50 trained on ImageNet and up to 1.42x on
BERT when evaluated on GLUE. Furthermore, distillation for BERT yields optimal
results when it is only performed for the first 20-50% of training. We also
observed that training with distillation is almost always more efficient than
training without distillation, even when using the poorest-quality model as a
teacher, in both ResNet-50 and BERT. Finally, we found that it's possible to
gain the benefit of distilling from an ensemble of teacher models, which has
O(n) runtime cost, by randomly sampling a single teacher from the pool of
teacher models on each step, which only has a O(1) runtime cost. Taken
together, these results show that distillation can substantially improve
training efficiency in both image classification and language modeling, and
that a few simple optimizations to distillation protocols can further enhance
these efficiency improvements.
- Abstract(参考訳): ディープネットワークトレーニングの効率を向上させる方法(つまり、所定のレベルのモデル品質を達成するために必要なリソース)は、ディープラーニング実践者にとってすぐに利益となる。
蒸留は通常、モデルを圧縮したり、モデルの品質を向上させるために使用されるが、蒸留が実際に訓練効率を向上させるかどうかは不明である。
蒸留の品質改善は、トレーニングスピードアップに変換できるのか、それとも、リソースの節約なしに最終モデル品質を単純に向上できるのか?
我々は,イメージネットでトレーニングしたResNet-50と,C4でトレーニングしたBERTをマスク言語モデリングの対象とし,共通エンタープライズハードウェア(NVIDIA A100の8倍)を用いてGLUEで評価した。
GLUEで評価すると,ImageNetでトレーニングしたResNet-50の1.96倍,BERTで1.42倍のトレーニングを高速化できることがわかった。
さらに、bertの蒸留は、トレーニングの最初の20-50%でのみ行われる場合に最適な結果が得られる。
また, ResNet-50 と BERT の双方において, 教師としての最良質モデルを用いた場合においても, 蒸留によるトレーニングは, 蒸留なしでのトレーニングよりも, ほぼ常に効率的であることがわかった。
最後に,O(n)のランタイムコストを持つ教師モデルのアンサンブルから,各ステップの教師モデルのプールから1人の教師をランダムにサンプリングすることで,O(1)のランタイムコストしか持たない教師モデルの蒸留のメリットを得ることができた。
これらの結果から, 蒸留は画像分類と言語モデリングの両方において, 訓練効率が大幅に向上し, 蒸留プロトコルに対する簡単な最適化が向上する可能性が示唆された。
関連論文リスト
- Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step [64.53013367995325]
アイデンティティ蒸留(SiD)は、事前訓練された拡散モデルのみを活用することにより、画像生成におけるSOTA性能を達成したデータフリー手法である。
我々は,SiDA (SiD with Adversarial Loss)を導入し, 生成品質の向上だけでなく, 実画像と逆損失を取り入れて蒸留効率を向上させる。
論文 参考訳(メタデータ) (2024-10-19T00:33:51Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文 参考訳(メタデータ) (2022-08-25T17:58:59Z) - Spot-adaptive Knowledge Distillation [39.23627955442595]
我々はスポット適応型KD(SAKD)と呼ばれる新しい蒸留戦略を提案する。
SAKDは、全蒸留期間中のトレーニングイテレーション毎に、サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する。
SAKDの有効性を実証するために10種類の最先端蒸留器を用いた実験を行った。
論文 参考訳(メタデータ) (2022-05-05T02:21:32Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - On Self-Distilling Graph Neural Network [64.00508355508106]
GNN自己蒸留(GNN-SD)と呼ばれるGNNに対する教師なし知識蒸留法を提案する。
本手法は, 組込みグラフの非平滑性を効率よく定量化する, 提案した近傍不一致率(NDR)に基づいて構築する。
また、他の蒸留戦略の誘導に活用できる汎用的なGNN-SDフレームワークについても要約する。
論文 参考訳(メタデータ) (2020-11-04T12:29:33Z) - MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks [57.69809561405253]
我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
論文 参考訳(メタデータ) (2020-09-17T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。