論文の概要: Self-Knowledge Distillation via Dropout
- arxiv url: http://arxiv.org/abs/2208.05642v1
- Date: Thu, 11 Aug 2022 05:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:19:32.137950
- Title: Self-Knowledge Distillation via Dropout
- Title(参考訳): ドロップアウトによる自己認識蒸留
- Authors: Hyoje Lee, Yeachan Park, Hyun Seo, Myungjoo Kang
- Abstract要約: ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
- 参考スコア(独自算出の注目度): 0.7883397954991659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To boost the performance, deep neural networks require deeper or wider
network structures that involve massive computational and memory costs. To
alleviate this issue, the self-knowledge distillation method regularizes the
model by distilling the internal knowledge of the model itself. Conventional
self-knowledge distillation methods require additional trainable parameters or
are dependent on the data. In this paper, we propose a simple and effective
self-knowledge distillation method using a dropout (SD-Dropout). SD-Dropout
distills the posterior distributions of multiple models through a dropout
sampling. Our method does not require any additional trainable modules, does
not rely on data, and requires only simple operations. Furthermore, this simple
method can be easily combined with various self-knowledge distillation
approaches. We provide a theoretical and experimental analysis of the effect of
forward and reverse KL-divergences in our work. Extensive experiments on
various vision tasks, i.e., image classification, object detection, and
distribution shift, demonstrate that the proposed method can effectively
improve the generalization of a single network. Further experiments show that
the proposed method also improves calibration performance, adversarial
robustness, and out-of-distribution detection ability.
- Abstract(参考訳): パフォーマンスを高めるために、ディープニューラルネットワークは、膨大な計算とメモリコストを含むより深いネットワーク構造を必要とする。
この問題を緩和するため、自己知識蒸留法はモデル自体の内部知識を蒸留することによってモデルを標準化する。
従来の自己認識蒸留法は、さらなる訓練可能なパラメータを必要とするか、データに依存する。
本稿では,ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
SD-Dropoutは、ドロップアウトサンプリングにより複数のモデルの後方分布を蒸留する。
このメソッドは、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作のみを必要とする。
さらに、この簡単な方法は、様々な自己知識蒸留手法と簡単に組み合わせることができる。
本研究におけるKL-分枝の前後効果に関する理論的,実験的解析を行った。
画像分類,物体検出,分布シフトといった様々な視覚課題に対する広範囲な実験により,提案手法が単一ネットワークの一般化を効果的に改善できることが実証された。
さらに, キャリブレーション性能, 対向ロバスト性, アウト・オブ・ディストリビューション検出能力も向上することを示した。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Self Regulated Learning Mechanism for Data Efficient Knowledge
Distillation [8.09591217280048]
教師モデルから学生モデルへ知識を移行するための新しいデータ効率の高いアプローチを提示する。
教師モデルは、訓練に適切なサンプルを選択し、その過程におけるその重要性を特定するために自己規制を用いる。
蒸留中は、学生を監督するソフトターゲットと共に重要な情報を利用することができる。
論文 参考訳(メタデータ) (2021-02-14T10:43:13Z) - Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer [15.499267533387039]
提案手法は,高速な画像分類とエンコーダデコーダアーキテクチャの両方に特化しており,推論過程において余分な計算オーバーヘッドを発生させることなく,小型・コンパクトなモデルの性能を向上させる。
提案手法は, 従来の自己蒸留法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-09T11:57:45Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。