論文の概要: Indirect Gradient Matching for Adversarial Robust Distillation
- arxiv url: http://arxiv.org/abs/2312.03286v1
- Date: Wed, 6 Dec 2023 04:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:05:55.527692
- Title: Indirect Gradient Matching for Adversarial Robust Distillation
- Title(参考訳): 逆ロバスト蒸留のための間接勾配マッチング
- Authors: Hongsin Lee, Seungju Cho, Changick Kim
- Abstract要約: 敵の訓練は敵の堅牢性を大幅に改善するが、優れた性能は大きなモデルで主に達成される。
既存の反対蒸留法は教師の足跡をガイドとして活用する。
本稿では,学生の入力勾配と教師の入力勾配とを間接的に一致させる蒸留モジュールを提案する。
- 参考スコア(独自算出の注目度): 17.06592851567578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training significantly improves adversarial robustness, but
superior performance is primarily attained with large models. This substantial
performance gap for smaller models has spurred active research into adversarial
distillation (AD) to mitigate the difference. Existing AD methods leverage the
teacher's logits as a guide. In contrast to these approaches, we aim to
transfer another piece of knowledge from the teacher, the input gradient. In
this paper, we propose a distillation module termed Indirect Gradient
Distillation Module (IGDM) that indirectly matches the student's input gradient
with that of the teacher. We hypothesize that students can better acquire the
teacher's knowledge by matching the input gradient. Leveraging the observation
that adversarial training renders the model locally linear on the input space,
we employ Taylor approximation to effectively align gradients without directly
calculating them. Experimental results show that IGDM seamlessly integrates
with existing AD methods, significantly enhancing the performance of all AD
methods. Particularly, utilizing IGDM on the CIFAR-100 dataset improves the
AutoAttack accuracy from 28.06% to 30.32% with the ResNet-18 model and from
26.18% to 29.52% with the MobileNetV2 model when integrated into the SOTA
method without additional data augmentation. The code will be made available.
- Abstract(参考訳): 敵意トレーニングは、敵意の強固さを大幅に改善するが、優れた性能は主に大きなモデルで達成される。
この小さなモデルの性能ギャップは、その差を緩和するために敵対蒸留(AD)の研究を活発に進めている。
既存のADメソッドは教師のログをガイドとして活用する。
これらのアプローチとは対照的に、我々は教師から別の知識、すなわち入力勾配を移すことを目指している。
本稿では,間接勾配蒸留モジュール(igdm)と呼ばれる,生徒の入力勾配と教師のそれと間接的に一致する蒸留モジュールを提案する。
生徒は入力勾配に合致して教師の知識を身につけることができると仮定する。
逆訓練が入力空間上で局所的に線形なモデルを生成するという観測を生かして,直接計算することなく,テイラー近似を用いて勾配を効果的に整列する。
実験の結果,IGDMは既存のADメソッドとシームレスに統合され,すべてのADメソッドの性能が著しく向上した。
特に、CIFAR-100データセットでのIGDMの利用は、ResNet-18モデルでAutoAttackの精度を28.06%から30.32%に改善し、追加データ拡張なしでSOTAメソッドに統合されたときにMobileNetV2モデルで26.18%から29.52%に改善した。
コードは利用可能になります。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - iDAT: inverse Distillation Adapter-Tuning [15.485126287621439]
Adapter-Tuning (AT) 法では、事前訓練されたモデルを凍結し、下流の知識を得るためにトレーニング可能なアダプタモジュールを導入する。
本稿では,慎重に設計したアダプタモジュールを製作する代わりに,AT方式の蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-23T07:36:58Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - LGD: Label-guided Self-distillation for Object Detection [59.9972914042281]
我々はLGD(Label-Guided Self-Distillation)と呼ばれる汎用物体検出のための最初の自己蒸留フレームワークを提案する。
本フレームワークは, 学習知識を得るために, スパースラベル-外観符号化, オブジェクト間関係適応, オブジェクト内知識マッピングを含む。
従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。
論文 参考訳(メタデータ) (2021-09-23T16:55:01Z) - Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation [19.778192371420793]
データフリーの逆蒸留フレームワークは生成ネットワークを展開し、教師モデルの知識を生徒モデルに転送する。
データ生成効率を向上させるために、アクティベーションレギュラライザと仮想敵対法を追加します。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
論文 参考訳(メタデータ) (2021-02-23T11:37:40Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。