論文の概要: Indirect Gradient Matching for Adversarial Robust Distillation
- arxiv url: http://arxiv.org/abs/2312.03286v2
- Date: Thu, 06 Mar 2025 10:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:55:40.701268
- Title: Indirect Gradient Matching for Adversarial Robust Distillation
- Title(参考訳): 逆ロバスト蒸留法における間接グラディエントマッチング
- Authors: Hongsin Lee, Seungju Cho, Changick Kim,
- Abstract要約: アドリアトレーニングは敵の堅牢性を大幅に向上させるが、優れた性能は大きなモデルで主に達成される。
既存の反対蒸留法(AD)は教師の足跡をガイドとして活用する。
Indirect Gradient Distillation Module (IGDM) と呼ばれる蒸留モジュールを提案する。
- 参考スコア(独自算出の注目度): 15.184564265850382
- License:
- Abstract: Adversarial training significantly improves adversarial robustness, but superior performance is primarily attained with large models. This substantial performance gap for smaller models has spurred active research into adversarial distillation (AD) to mitigate the difference. Existing AD methods leverage the teacher's logits as a guide. In contrast to these approaches, we aim to transfer another piece of knowledge from the teacher, the input gradient. In this paper, we propose a distillation module termed Indirect Gradient Distillation Module (IGDM) that indirectly matches the student's input gradient with that of the teacher. Experimental results show that IGDM seamlessly integrates with existing AD methods, significantly enhancing their performance. Particularly, utilizing IGDM on the CIFAR-100 dataset improves the AutoAttack accuracy from 28.06% to 30.32% with the ResNet-18 architecture and from 26.18% to 29.32% with the MobileNetV2 architecture when integrated into the SOTA method without additional data augmentation.
- Abstract(参考訳): 敵の訓練は敵の堅牢性を大幅に改善するが、優れた性能は大きなモデルで主に達成される。
この小さなモデルの性能格差は、その差を緩和するために敵対的蒸留(AD)の研究を活発に進めている。
既存のADメソッドは、教師のログをガイドとして活用する。
これらのアプローチとは対照的に、我々は、入力勾配である教師から別の知識を伝達することを目的としている。
本稿では, 間接グラディエント蒸留モジュール (IGDM) と呼ばれる蒸留モジュールを提案し, 生徒の入力勾配と教師の入力勾配とを間接的に一致させる。
実験の結果,IGDMは既存のAD手法とシームレスに統合され,性能が著しく向上した。
特に、CIFAR-100データセットでIGDMを利用することで、AutoAttackの精度はResNet-18アーキテクチャでは28.06%から30.32%に向上し、追加データ拡張なしでSOTAメソッドに統合すると、MobileNetV2アーキテクチャでは26.18%から29.32%に向上する。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - iDAT: inverse Distillation Adapter-Tuning [15.485126287621439]
Adapter-Tuning (AT) 法では、事前訓練されたモデルを凍結し、下流の知識を得るためにトレーニング可能なアダプタモジュールを導入する。
本稿では,慎重に設計したアダプタモジュールを製作する代わりに,AT方式の蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-23T07:36:58Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - LGD: Label-guided Self-distillation for Object Detection [59.9972914042281]
我々はLGD(Label-Guided Self-Distillation)と呼ばれる汎用物体検出のための最初の自己蒸留フレームワークを提案する。
本フレームワークは, 学習知識を得るために, スパースラベル-外観符号化, オブジェクト間関係適応, オブジェクト内知識マッピングを含む。
従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。
論文 参考訳(メタデータ) (2021-09-23T16:55:01Z) - Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation [19.778192371420793]
データフリーの逆蒸留フレームワークは生成ネットワークを展開し、教師モデルの知識を生徒モデルに転送する。
データ生成効率を向上させるために、アクティベーションレギュラライザと仮想敵対法を追加します。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
論文 参考訳(メタデータ) (2021-02-23T11:37:40Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。