論文の概要: Online Distillation with Mixed Sample Augmentation
- arxiv url: http://arxiv.org/abs/2206.12370v1
- Date: Fri, 24 Jun 2022 16:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 13:58:51.259206
- Title: Online Distillation with Mixed Sample Augmentation
- Title(参考訳): 混合試料増量によるオンライン蒸留
- Authors: Yiqing Shen, Liwu Xu, Yuzhe Yang, Yaqian Li, Yandong Guo
- Abstract要約: Mixed Sample Regularization (MSR)は畳み込みニューラルネットワークを一般化するための強力なデータ拡張戦略である。
我々は、オンライン蒸留のためのさらに強力なMSRを提案し、CutnMixと名づけられた。
CIFAR10とCIFAR100の6つのネットワークアーキテクチャによる総合的な評価は、我々のアプローチが常に最先端の蒸留法より優れていることを示している。
- 参考スコア(独自算出の注目度): 14.388479145440636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed Sample Regularization (MSR), such as MixUp or CutMix, is a powerful
data augmentation strategy to generalize convolutional neural networks.
Previous empirical analysis has illustrated an orthogonal performance gain
between MSR and the conventional offline Knowledge Distillation (KD). To be
more specific, student networks can be enhanced with the involvement of MSR in
the training stage of the sequential distillation. Yet, the interplay between
MSR and online knowledge distillation, a stronger distillation paradigm, where
an ensemble of peer students learn mutually from each other, remains
unexplored. To bridge the gap, we make the first attempt at incorporating
CutMix into online distillation, where we empirically observe a significant
improvement. Encouraged by this fact, we propose an even stronger MSR
specifically for online distillation, named as Cut^nMix. Furthermore, a novel
online distillation framework is designed upon Cut^nMix, to enhance the
distillation with feature level mutual learning and a self-ensemble teacher.
Comprehensive evaluations on CIFAR10 and CIFAR100 with six network
architectures show that our approach can consistently outperform
state-of-the-art distillation methods.
- Abstract(参考訳): MixUpやCutMixのようなMixed Sample Regularization(MSR)は、畳み込みニューラルネットワークを一般化するための強力なデータ拡張戦略である。
これまでの実証分析では、msrと従来のオフライン知識蒸留(kd)の直交性能向上が示されている。
より具体的に言うと、学生ネットワークは、逐次蒸留の訓練段階におけるMSRの関与によって拡張することができる。
しかし、より強力な蒸留パラダイムであるmsrとオンライン知識蒸留の相互作用は、相互に学習する仲間の学生の集団が探求されていない。
このギャップを埋めるため、オンライン蒸留にcutmixを組み込む最初の試みを行い、実証的に大幅な改善を観察しました。
そこで我々は, オンライン蒸留用として, Cut^nMix というさらに強力な MSR を提案する。
さらに,Cut^nMix上に新たなオンライン蒸留フレームワークを設計し,機能レベルの相互学習と自己アンサンブル教師による蒸留を強化した。
CIFAR10とCIFAR100の6つのネットワークアーキテクチャによる総合的な評価は、我々のアプローチが常に最先端の蒸留法より優れていることを示している。
関連論文リスト
- Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - Understanding the Role of Mixup in Knowledge Distillation: An Empirical
Study [4.751886527142779]
Mixupは、2つのデータサンプル間の線形一般化による新しいサンプルの作成に基づく、一般的なデータ拡張技術である。
知識蒸留(KD)はモデル圧縮と伝達学習に広く用いられている。
スムースネス」は両者のつながりであり、KDとミックスアップの相互作用を理解する上でも重要な属性である。
論文 参考訳(メタデータ) (2022-11-08T01:43:14Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Channel Self-Supervision for Online Knowledge Distillation [14.033675223173933]
オンライン知識蒸留(CSS)のための新しいオンライン知識蒸留法, textbfChannel textbfSelf-textbfSupervisionを提案する。
我々は,マルチブランチ構造を構築し,自己教師付き学習を通じて分岐間多様性を向上させる。
提案手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-22T12:35:20Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits [25.140055086630838]
本論文では,畳み込みニューラルネットワーク(CNN)の分類性能を改善するための知識蒸留に基づく新しい学習法を提案する。
教師が生徒にのみ教える従来の蒸留の概念とは異なり、生徒は他の生徒や教師がもっとよく学ぶのを助けることができる。
論文 参考訳(メタデータ) (2021-04-01T07:10:36Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。