論文の概要: How and When Adversarial Robustness Transfers in Knowledge Distillation?
- arxiv url: http://arxiv.org/abs/2110.12072v1
- Date: Fri, 22 Oct 2021 21:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:35:24.110858
- Title: How and When Adversarial Robustness Transfers in Knowledge Distillation?
- Title(参考訳): 知識蒸留における対人ロバスト性伝達の方法と時期
- Authors: Rulin Shao, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh
- Abstract要約: 本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
- 参考スコア(独自算出の注目度): 137.11016173468457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has been widely used in teacher-student training,
with applications to model compression in resource-constrained deep learning.
Current works mainly focus on preserving the accuracy of the teacher model.
However, other important model properties, such as adversarial robustness, can
be lost during distillation. This paper studies how and when the adversarial
robustness can be transferred from a teacher model to a student model in KD. We
show that standard KD training fails to preserve adversarial robustness, and we
propose KD with input gradient alignment (KDIGA) for remedy. Under certain
assumptions, we prove that the student model using our proposed KDIGA can
achieve at least the same certified robustness as the teacher model. Our
experiments of KD contain a diverse set of teacher and student models with
varying network architectures and sizes evaluated on ImageNet and CIFAR-10
datasets, including residual neural networks (ResNets) and vision transformers
(ViTs). Our comprehensive analysis shows several novel insights that (1) With
KDIGA, students can preserve or even exceed the adversarial robustness of the
teacher model, even when their models have fundamentally different
architectures; (2) KDIGA enables robustness to transfer to pre-trained
students, such as KD from an adversarially trained ResNet to a pre-trained ViT,
without loss of clean accuracy; and (3) Our derived local linearity bounds for
characterizing adversarial robustness in KD are consistent with the empirical
results.
- Abstract(参考訳): 知識蒸留(KD)は、資源制約された深層学習における圧縮をモデル化するために、教師学生の訓練に広く用いられている。
現在の研究は主に教師モデルの精度を維持することに焦点を当てている。
しかし、他の重要なモデル特性、例えば対向ロバスト性は蒸留中に失われる。
本稿では,KDにおける教師モデルから生徒モデルへの対向的ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成できることを示す。
我々のKD実験は、残差ニューラルネットワーク(ResNet)やビジョントランスフォーマー(ViT)を含む、ImageNetおよびCIFAR-10データセットで評価された様々なネットワークアーキテクチャとサイズを持つ教師と学生の多様なモデルを含む。
Our comprehensive analysis shows several novel insights that (1) With KDIGA, students can preserve or even exceed the adversarial robustness of the teacher model, even when their models have fundamentally different architectures; (2) KDIGA enables robustness to transfer to pre-trained students, such as KD from an adversarially trained ResNet to a pre-trained ViT, without loss of clean accuracy; and (3) Our derived local linearity bounds for characterizing adversarial robustness in KD are consistent with the empirical results.
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model [13.367731896112861]
知識蒸留(KD)は、エッジ展開において広く使われている圧縮技術の一つである。
本稿では,特徴分散に基づいてバックドアを緩和しながらモデルを圧縮するロバストKDを提案する。
論文 参考訳(メタデータ) (2024-06-01T11:25:03Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。