論文の概要: Self-Distillation from the Last Mini-Batch for Consistency
Regularization
- arxiv url: http://arxiv.org/abs/2203.16172v1
- Date: Wed, 30 Mar 2022 09:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 22:55:04.312694
- Title: Self-Distillation from the Last Mini-Batch for Consistency
Regularization
- Title(参考訳): 連続正則化のための最後のミニバッチからの自己蒸留
- Authors: Yiqing Shen, Liwu Xu, Yuzhe Yang, Yaqian Li, Yandong Guo
- Abstract要約: 我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 14.388479145440636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) shows a bright promise as a powerful
regularization strategy to boost generalization ability by leveraging learned
sample-level soft targets. Yet, employing a complex pre-trained teacher network
or an ensemble of peer students in existing KD is both time-consuming and
computationally costly. Various self KD methods have been proposed to achieve
higher distillation efficiency. However, they either require extra network
architecture modification or are difficult to parallelize. To cope with these
challenges, we propose an efficient and reliable self-distillation framework,
named Self-Distillation from Last Mini-Batch (DLB). Specifically, we rearrange
the sequential sampling by constraining half of each mini-batch coinciding with
the previous iteration. Meanwhile, the rest half will coincide with the
upcoming iteration. Afterwards, the former half mini-batch distills on-the-fly
soft targets generated in the previous iteration. Our proposed mechanism guides
the training stability and consistency, resulting in robustness to label noise.
Moreover, our method is easy to implement, without taking up extra run-time
memory or requiring model structure modification. Experimental results on three
classification benchmarks illustrate that our approach can consistently
outperform state-of-the-art self-distillation approaches with different network
architectures. Additionally, our method shows strong compatibility with
augmentation strategies by gaining additional performance improvement. The code
is available at https://github.com/Meta-knowledge-Lab/DLB.
- Abstract(参考訳): 知識蒸留(kd)は、学習されたサンプルレベルのソフトターゲットを活用して一般化能力を高める強力な正規化戦略として明るい期待を示している。
しかし、既存のKDでは、複雑な事前訓練された教師ネットワークやピアのアンサンブルを利用することは、時間と計算に費用がかかる。
蒸留効率を高めるために様々な自己kd法が提案されている。
しかし、それらは追加のネットワークアーキテクチャの変更を必要とするか、あるいは並列化が難しい。
これらの課題に対処するために,Last Mini-Batch (DLB) による自己蒸留という,効率的かつ信頼性の高い自己蒸留フレームワークを提案する。
具体的には、各ミニバッチの半分を前回の繰り返しと一致させることで、シーケンシャルサンプリングを再構成する。
一方、残りの半分は次のイテレーションと一致します。
その後、以前のハーフミニバッチは、前回のイテレーションで生成されたオンザフライソフトターゲットを蒸留する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
さらに,本手法は,余分な実行時のメモリやモデル構造の変更を伴わずに実装が容易である。
3つの分類ベンチマークの実験結果から,本手法は異なるネットワークアーキテクチャを用いて,最先端の自己蒸留アプローチを一貫して上回ることができることが示された。
さらに,提案手法は性能向上により強化戦略との強い互換性を示す。
コードはhttps://github.com/Meta-knowledge-Lab/DLBで公開されている。
関連論文リスト
- Cross-View Consistency Regularisation for Knowledge Distillation [13.918476599394603]
この研究は、半教師付き学習のような分野におけるクロスビュー学習の成功に触発されている。
標準ロジット蒸留フレームワークにインテリアビューおよびクロスビューレギュラー化を導入する。
また,教師の蒸留信号の品質向上のために,信頼性に基づくソフトラベルマイニングを実施している。
論文 参考訳(メタデータ) (2024-12-21T05:41:47Z) - Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。
本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。
データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文 参考訳(メタデータ) (2024-06-03T17:44:11Z) - Densely Distilling Cumulative Knowledge for Continual Learning [14.343655566551213]
多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
本稿では,従来の課題の累積知識を抽出するために,Dense Knowledge Distillation (DKD)を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2024-05-16T05:37:06Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z) - Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。
PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。
分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文 参考訳(メタデータ) (2020-06-22T04:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。