論文の概要: An Empirical Analysis of the Impact of Data Augmentation on Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2006.03810v2
- Date: Tue, 9 Jun 2020 13:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 20:57:42.022339
- Title: An Empirical Analysis of the Impact of Data Augmentation on Knowledge
Distillation
- Title(参考訳): データ拡張が知識蒸留に及ぼす影響に関する実証分析
- Authors: Deepan Das, Haley Massa, Abhimanyu Kulkarni, Theodoros Rekatsinas
- Abstract要約: 経験的リスク最小化を用いて訓練したディープラーニングモデルの一般化性能を大幅に改善することができる。
教師がMixUpやCutMixのような混合サンプル増強戦略を用いて訓練された場合、その一般化能力に障害がある。
- 参考スコア(独自算出の注目度): 7.7243976139153885
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generalization Performance of Deep Learning models trained using Empirical
Risk Minimization can be improved significantly by using Data Augmentation
strategies such as simple transformations, or using Mixed Samples. We attempt
to empirically analyze the impact of such strategies on the transfer of
generalization between teacher and student models in a distillation setup. We
observe that if a teacher is trained using any of the mixed sample augmentation
strategies, such as MixUp or CutMix, the student model distilled from it is
impaired in its generalization capabilities. We hypothesize that such
strategies limit a model's capability to learn example-specific features,
leading to a loss in quality of the supervision signal during distillation. We
present a novel Class-Discrimination metric to quantitatively measure this
dichotomy in performance and link it to the discriminative capacity induced by
the different strategies on a network's latent space.
- Abstract(参考訳): 経験的リスク最小化を用いてトレーニングされたディープラーニングモデルの一般化性能は、単純な変換や混合サンプルといったデータ拡張戦略を用いることで大幅に向上することができる。
蒸留施設における教師モデルと学生モデル間の一般化の伝達に対するこのような戦略の効果を実証的に分析する。
教師がミックスアップやカットミックスなどの混合サンプル増補戦略を用いて訓練された場合,その一般化能力に障害が生じている。
このような手法は, 模範的な特徴を学習するモデルの性能を制限し, 蒸留中の監視信号の品質を低下させるという仮説を立てる。
本稿では,この二分法を定量的に測定し,ネットワークの潜在空間上の異なる戦略によって引き起こされる識別能力にリンクする,新しいクラス識別尺度を提案する。
関連論文リスト
- Transferable Availability Poisoning Attacks [26.121144846352088]
我々は、機械学習モデルの総合的なテスト精度を低下させることを目的とした、アベイラビリティーデータ中毒攻撃について検討する。
既存の毒殺対策は攻撃目標を達成することができるが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。
本稿では, 勾配情報を交互に活用し, 高周波中毒を発生させるTransferable Poisoningを提案する。
論文 参考訳(メタデータ) (2023-10-08T12:22:50Z) - Improving Sample Efficiency of Deep Learning Models in Electricity
Market [0.41998444721319217]
我々は,サンプルの効率を向上させるため,知識強化トレーニング(KAT)という一般的なフレームワークを提案する。
本稿では,いくつかの合成データを生成する新しいデータ拡張手法を提案する。
現代の学習理論は, 効果的な予測誤差フィードバック, 信頼損失関数, リッチ勾配雑音の観点から, 提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2022-10-11T16:35:13Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Embedding Transfer with Label Relaxation for Improved Metric Learning [43.94511888670419]
本稿では,学習した埋め込みモデルの知識を他へ伝達する,新しい埋め込み変換手法を提案する。
本手法は,ソース埋め込み空間のサンプル間の類似性を知識として活用し,対象埋め込みモデルの学習に用いる損失を伝達する。
論文 参考訳(メタデータ) (2021-03-27T13:35:03Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Which Strategies Matter for Noisy Label Classification? Insight into
Loss and Uncertainty [7.20844895799647]
ラベルノイズは、ディープニューラルネットワークの一般化性能を低下させる重要な要因である。
学習過程を通じてサンプルの損失値と不確実性値がどのように変化するかの分析結果を示す。
我々は,ノイズの影響を最小限に抑えつつ,清潔で情報的なサンプルを強調する新しいロバストなトレーニング手法を設計する。
論文 参考訳(メタデータ) (2020-08-14T07:34:32Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。