論文の概要: Meta Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2202.07940v1
- Date: Wed, 16 Feb 2022 09:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:24:50.316475
- Title: Meta Knowledge Distillation
- Title(参考訳): メタ知識蒸留
- Authors: Jihao Liu and Boxiao Liu and Hongsheng Li and Yu Liu
- Abstract要約: 本稿ではメタ知識蒸留(Meta Knowledge Distillation, MKD)を提案する。
ViT-Lでは、600エポックのトレーニングで86.5%、1600エポックのトレーニングで1,650エポックのMAEより0.6%良くなった。
- 参考スコア(独自算出の注目度): 33.48131864248235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies pointed out that knowledge distillation (KD) suffers from two
degradation problems, the teacher-student gap and the incompatibility with
strong data augmentations, making it not applicable to training
state-of-the-art models, which are trained with advanced augmentations.
However, we observe that a key factor, i.e., the temperatures in the softmax
functions for generating probabilities of both the teacher and student models,
was mostly overlooked in previous methods. With properly tuned temperatures,
such degradation problems of KD can be much mitigated. However, instead of
relying on a naive grid search, which shows poor transferability, we propose
Meta Knowledge Distillation (MKD) to meta-learn the distillation with learnable
meta temperature parameters. The meta parameters are adaptively adjusted during
training according to the gradients of the learning objective. We validate that
MKD is robust to different dataset scales, different teacher/student
architectures, and different types of data augmentation. With MKD, we achieve
the best performance with popular ViT architectures among compared methods that
use only ImageNet-1K as training data, ranging from tiny to large models. With
ViT-L, we achieve 86.5% with 600 epochs of training, 0.6% better than MAE that
trains for 1,650 epochs.
- Abstract(参考訳): 近年の研究では、知識蒸留(KD)は教師と生徒のギャップと強力なデータ拡張との相容れない2つの劣化問題に悩まされていることが指摘されており、高度な強化で訓練された最先端モデルのトレーニングには適用できない。
しかし,教師モデルと生徒モデルの双方の確率を発生させるソフトマックス関数の温度は,従来の手法ではほとんど見過ごされていなかった。
温度調整を適切に行うと、KDの劣化問題は大幅に軽減される。
しかし, 伝達性に乏しいナイーブなグリッド探索に頼る代わりに, 学習可能なメタ温度パラメータを用いて蒸留をメタ学習するメタ知識蒸留 (mkd) を提案する。
メタパラメータは学習対象の勾配に応じてトレーニング中に適応的に調整される。
MKDは異なるデータセットスケール、異なる教師/学生アーキテクチャ、異なる種類のデータ拡張に対して堅牢であることを示す。
MKDでは,ImageNet-1Kのみをトレーニングデータとして用い,小型モデルから大規模モデルまで,一般的なViTアーキテクチャで最高の性能を実現している。
ViT-Lでは、600エポックのトレーニングで86.5%、1600エポックのトレーニングで1,650エポックのMAEより0.6%良くなった。
関連論文リスト
- ScaleKD: Strong Vision Transformers Could Be Excellent Teachers [15.446480934024652]
本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。
本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。
教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
論文 参考訳(メタデータ) (2024-11-11T08:25:21Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - LTD: Low Temperature Distillation for Robust Adversarial Training [1.3300217947936062]
敵の訓練は、敵の攻撃に対するニューラルネットワークモデルの堅牢性を高めるために広く使用されている。
ニューラルネットワークモデルの人気にもかかわらず、これらのモデルの自然な精度とロバストな精度の間には大きなギャップがある。
改良された知識蒸留フレームワークを用いてソフトラベルを生成する,低温蒸留(LTD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T16:26:00Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。