論文の概要: An Empirical Analysis of the Impact of Data Augmentation on Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2006.03810v2
- Date: Tue, 9 Jun 2020 13:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 20:57:42.022339
- Title: An Empirical Analysis of the Impact of Data Augmentation on Knowledge
Distillation
- Title(参考訳): データ拡張が知識蒸留に及ぼす影響に関する実証分析
- Authors: Deepan Das, Haley Massa, Abhimanyu Kulkarni, Theodoros Rekatsinas
- Abstract要約: 経験的リスク最小化を用いて訓練したディープラーニングモデルの一般化性能を大幅に改善することができる。
教師がMixUpやCutMixのような混合サンプル増強戦略を用いて訓練された場合、その一般化能力に障害がある。
- 参考スコア(独自算出の注目度): 7.7243976139153885
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generalization Performance of Deep Learning models trained using Empirical
Risk Minimization can be improved significantly by using Data Augmentation
strategies such as simple transformations, or using Mixed Samples. We attempt
to empirically analyze the impact of such strategies on the transfer of
generalization between teacher and student models in a distillation setup. We
observe that if a teacher is trained using any of the mixed sample augmentation
strategies, such as MixUp or CutMix, the student model distilled from it is
impaired in its generalization capabilities. We hypothesize that such
strategies limit a model's capability to learn example-specific features,
leading to a loss in quality of the supervision signal during distillation. We
present a novel Class-Discrimination metric to quantitatively measure this
dichotomy in performance and link it to the discriminative capacity induced by
the different strategies on a network's latent space.
- Abstract(参考訳): 経験的リスク最小化を用いてトレーニングされたディープラーニングモデルの一般化性能は、単純な変換や混合サンプルといったデータ拡張戦略を用いることで大幅に向上することができる。
蒸留施設における教師モデルと学生モデル間の一般化の伝達に対するこのような戦略の効果を実証的に分析する。
教師がミックスアップやカットミックスなどの混合サンプル増補戦略を用いて訓練された場合,その一般化能力に障害が生じている。
このような手法は, 模範的な特徴を学習するモデルの性能を制限し, 蒸留中の監視信号の品質を低下させるという仮説を立てる。
本稿では,この二分法を定量的に測定し,ネットワークの潜在空間上の異なる戦略によって引き起こされる識別能力にリンクする,新しいクラス識別尺度を提案する。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models [20.550324116099357]
拡散モデルは、新規で高品質なサンプルを生成できることで知られている。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T02:19:30Z) - Boosting Model Resilience via Implicit Adversarial Data Augmentation [20.768174896574916]
本稿では, 対向性および対向性摂動分布を組み込むことにより, 試料の深い特性を増大させることを提案する。
そして、この拡張過程が代理損失関数の最適化に近似することを理論的に明らかにする。
我々は4つの共通のバイアス付き学習シナリオにまたがって広範な実験を行う。
論文 参考訳(メタデータ) (2024-04-25T03:22:48Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Embedding Transfer with Label Relaxation for Improved Metric Learning [43.94511888670419]
本稿では,学習した埋め込みモデルの知識を他へ伝達する,新しい埋め込み変換手法を提案する。
本手法は,ソース埋め込み空間のサンプル間の類似性を知識として活用し,対象埋め込みモデルの学習に用いる損失を伝達する。
論文 参考訳(メタデータ) (2021-03-27T13:35:03Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Which Strategies Matter for Noisy Label Classification? Insight into
Loss and Uncertainty [7.20844895799647]
ラベルノイズは、ディープニューラルネットワークの一般化性能を低下させる重要な要因である。
学習過程を通じてサンプルの損失値と不確実性値がどのように変化するかの分析結果を示す。
我々は,ノイズの影響を最小限に抑えつつ,清潔で情報的なサンプルを強調する新しいロバストなトレーニング手法を設計する。
論文 参考訳(メタデータ) (2020-08-14T07:34:32Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。