論文の概要: Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification
- arxiv url: http://arxiv.org/abs/2104.13298v1
- Date: Tue, 27 Apr 2021 16:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:27:04.500401
- Title: Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification
- Title(参考訳): バッチ知識を組み込んだ自己蒸留による画像ネット分類の改善
- Authors: Yixiao Ge, Ching Lam Choi, Xiao Zhang, Peipei Zhao, Feng Zhu, Rui
Zhao, Hongsheng Li
- Abstract要約: 本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
- 参考スコア(独自算出の注目度): 57.5041270212206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent studies of knowledge distillation have discovered that ensembling
the "dark knowledge" from multiple teachers or students contributes to creating
better soft targets for training, but at the cost of significantly more
computations and/or parameters. In this work, we present BAtch Knowledge
Ensembling (BAKE) to produce refined soft targets for anchor images by
propagating and ensembling the knowledge of the other samples in the same
mini-batch. Specifically, for each sample of interest, the propagation of
knowledge is weighted in accordance with the inter-sample affinities, which are
estimated on-the-fly with the current network. The propagated knowledge can
then be ensembled to form a better soft target for distillation. In this way,
our BAKE framework achieves online knowledge ensembling across multiple samples
with only a single network. It requires minimal computational and memory
overhead compared to existing knowledge ensembling methods. Extensive
experiments demonstrate that the lightweight yet effective BAKE consistently
boosts the classification performance of various architectures on multiple
datasets, e.g., a significant +1.2% gain of ResNet-50 on ImageNet with only
+3.7% computational overhead and zero additional parameters. BAKE does not only
improve the vanilla baselines, but also surpasses the single-network
state-of-the-arts on all the benchmarks.
- Abstract(参考訳): 近年の知識蒸留の研究により、複数の教師や生徒から「ダーク・ナレッジ」をセンセンシングすることで、よりソフトなトレーニングのターゲットを作ることができるが、計算量やパラメーターは大幅に増加することが判明している。
本研究では,BAKE(Batch Knowledge Ensembling)を用いて,同一のミニバッチにおいて,他のサンプルの知識を伝播,アンカーイメージのソフトターゲットを生成する。
具体的には、各興味のサンプルについて、現在のネットワークと推定されるサンプル間の親和性に応じて知識の伝播を重み付けする。
伝播した知識は、蒸留のためのより良いソフトターゲットを形成するために組み立てられる。
このようにして、私たちのBAKEフレームワークは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
大規模な実験では、軽量だが効果的なBAKEは、複数のデータセット上の様々なアーキテクチャの分類性能を一貫して向上させ、例えば、ImageNet上でResNet-50が+1.2%向上し、計算オーバーヘッドは+3.7%、追加パラメータは0である。
BAKEはバニラのベースラインを改善するだけでなく、すべてのベンチマークのシングルネットワークの状態を上回ります。
関連論文リスト
- The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning [29.87420015681205]
対照的に、CLIP(Contrastive Language-Image Pre-Training)は、ゼロショット学習の強力なパフォーマンスを示している。
フルショット学習は、各クラスに少数の画像を与えることで、CLIPの転送能力をさらに向上することを目的としている。
論文 参考訳(メタデータ) (2024-04-15T13:30:34Z) - LumiNet: The Bright Side of Perceptual Knowledge Distillation [18.126581058419713]
本稿では,ロジットに基づく蒸留を促進するために設計された新しい知識蒸留アルゴリズムであるLumiNetを紹介する。
LumiNetは、ロジットベースの蒸留法における過信問題に対処しつつ、教師からの知識を蒸留する新しい方法を導入した。
CIFAR-100、ImageNet、MSCOCOなどのベンチマークを上回り、主要な機能ベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T16:43:28Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。