論文の概要: VanillaKD: Revisit the Power of Vanilla Knowledge Distillation from
Small Scale to Large Scale
- arxiv url: http://arxiv.org/abs/2305.15781v1
- Date: Thu, 25 May 2023 06:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:45:17.173474
- Title: VanillaKD: Revisit the Power of Vanilla Knowledge Distillation from
Small Scale to Large Scale
- Title(参考訳): vanillakd: 小規模から大規模へのバニラ知識蒸留の力の再検討
- Authors: Zhiwei Hao, Jianyuan Guo, Kai Han, Han Hu, Chang Xu, Yunhe Wang
- Abstract要約: より強力なデータ拡張技術を採用し、より大きなデータセットを使用することで、バニラKDと他の細心の注意を払って設計されたKDとのギャップを直接削減できることを示す。
より複雑なスキームにおけるバニラKDとその変種の研究は、より強力な訓練戦略と異なるモデル能力を含む、バニラKDはエレガントに単純だが、大規模なシナリオでは驚くべきほど効果的であることを示す。
- 参考スコア(独自算出の注目度): 55.97546756258374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tremendous success of large models trained on extensive datasets
demonstrates that scale is a key ingredient in achieving superior results.
Therefore, the reflection on the rationality of designing knowledge
distillation (KD) approaches for limited-capacity architectures solely based on
small-scale datasets is now deemed imperative. In this paper, we identify the
\emph{small data pitfall} that presents in previous KD methods, which results
in the underestimation of the power of vanilla KD framework on large-scale
datasets such as ImageNet-1K. Specifically, we show that employing stronger
data augmentation techniques and using larger datasets can directly decrease
the gap between vanilla KD and other meticulously designed KD variants. This
highlights the necessity of designing and evaluating KD approaches in the
context of practical scenarios, casting off the limitations of small-scale
datasets. Our investigation of the vanilla KD and its variants in more complex
schemes, including stronger training strategies and different model capacities,
demonstrates that vanilla KD is elegantly simple but astonishingly effective in
large-scale scenarios. Without bells and whistles, we obtain state-of-the-art
ResNet-50, ViT-S, and ConvNeXtV2-T models for ImageNet, which achieve 83.1\%,
84.3\%, and 85.0\% top-1 accuracy, respectively. PyTorch code and checkpoints
can be found at https://github.com/Hao840/vanillaKD.
- Abstract(参考訳): 大規模なデータセットでトレーニングされた大規模なモデルの成功は、スケールが優れた結果を達成する上で重要な要素であることを証明している。
そのため,小規模データセットのみをベースとした限定容量アーキテクチャにおける知識蒸留(KD)手法の設計の合理性に関する考察が重要視されている。
本稿では,従来のKD手法で提案したemph{small data pitfall}を同定し,ImageNet-1Kのような大規模データセット上でのバニラKDフレームワークのパワーを過小評価する。
具体的には、より強力なデータ拡張技術とより大きなデータセットを使用することで、バニラkdと他の細心の注意深いkdモデルとのギャップを直接低減できることを示す。
これは、KDアプローチを実践シナリオのコンテキストで設計し評価することの必要性を強調し、小規模データセットの制限を排除している。
より複雑なスキームにおけるバニラKDとその変種の研究は、より強力な訓練戦略と異なるモデル能力を含む、バニラKDがエレガントに単純だが、大規模なシナリオで驚くほど効果的であることを示す。
ベルとホイッスルがなければ、ImageNetの最先端のResNet-50、ViT-S、ConvNeXtV2-Tモデルがそれぞれ83.1\%、84.3\%、85.0\%となる。
PyTorchのコードとチェックポイントはhttps://github.com/Hao840/vanillaKD.comにある。
関連論文リスト
- Condensed Sample-Guided Model Inversion for Knowledge Distillation [42.91823325342862]
知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。
KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。
本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
論文 参考訳(メタデータ) (2024-08-25T14:43:27Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - KD-SCFNet: Towards More Accurate and Efficient Salient Object Detection
via Knowledge Distillation [3.354517826696927]
マルチレベル特徴のインタラクティブな融合に焦点を当てた,意味誘導型文脈融合ネットワーク(SCFNet)を設計する。
詳細は、調味された教師から未学習のSCFNetにラベルのない画像を通して豊富な知識を伝達する。
知識蒸留に基づくSCFNet(KDSCFNet)は、1M未満のパラメータと174FPSリアルタイム検出速度を持つ最先端の重み付け手法に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2022-08-03T16:03:11Z) - Knowledge Distillation of Transformer-based Language Models Revisited [74.25427636413067]
大規模なモデルサイズと高いランタイムレイテンシは、実際にトレーニング済みの言語モデルを適用する上で深刻な障害となります。
変圧器モデルのための統合知識蒸留フレームワークを提案する。
実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)に比べて相対的に改善した。
論文 参考訳(メタデータ) (2022-06-29T02:16:56Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。