論文の概要: On the benefits of knowledge distillation for adversarial robustness
- arxiv url: http://arxiv.org/abs/2203.07159v1
- Date: Mon, 14 Mar 2022 15:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 17:11:34.749244
- Title: On the benefits of knowledge distillation for adversarial robustness
- Title(参考訳): 逆強靭性に対する知識蒸留の利点について
- Authors: Javier Maroto, Guillermo Ortiz-Jim\'enez and Pascal Frossard
- Abstract要約: 知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
- 参考スコア(独自算出の注目度): 53.41196727255314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is normally used to compress a big network, or
teacher, onto a smaller one, the student, by training it to match its outputs.
Recently, some works have shown that robustness against adversarial attacks can
also be distilled effectively to achieve good rates of robustness on
mobile-friendly models. In this work, however, we take a different point of
view, and show that knowledge distillation can be used directly to boost the
performance of state-of-the-art models in adversarial robustness. In this
sense, we present a thorough analysis and provide general guidelines to distill
knowledge from a robust teacher and boost the clean and adversarial performance
of a student model even further. To that end, we present Adversarial Knowledge
Distillation (AKD), a new framework to improve a model's robust performance,
consisting on adversarially training a student on a mixture of the original
labels and the teacher outputs. Through carefully controlled ablation studies,
we show that using early-stopping, model ensembles and weak adversarial
training are key techniques to maximize performance of the student, and show
that these insights generalize across different robust distillation techniques.
Finally, we provide insights on the effect of robust knowledge distillation on
the dynamics of the student network, and show that AKD mostly improves the
calibration of the network and modify its training dynamics on samples that the
model finds difficult to learn, or even memorize.
- Abstract(参考訳): 知識蒸留は、通常、大きなネットワークまたは教師を小さなネットワーク、生徒に圧縮するために、出力にマッチするように訓練することで使用される。
近年,モバイルフレンドリーなモデル上でのロバスト性を達成するために,敵対的攻撃に対するロバスト性も効果的に蒸留できることが示された。
しかし, 本研究は異なる視点から, 対向ロバスト性における最先端モデルの性能を高めるために, 知識蒸留を直接的に利用することができることを示す。
この意味では、徹底的な分析を行い、ロバストな教師からの知識を蒸留し、学生モデルの清潔で敵対的なパフォーマンスをさらに高めるための一般的なガイドラインを提供する。
そこで,本研究では,教師の出力とラベルを混合して生徒を訓練することを目的として,モデルのロバストな性能を向上させるための新しい枠組みであるadversarial knowledge distillation (akd)を提案する。
本研究は, 早期学習, モデルアンサンブル, 弱い対人訓練が, 生徒のパフォーマンスを最大化するための鍵となる手法であることを示すとともに, これらの知見が, 様々な頑健な蒸留技術にまたがって一般化することを示す。
最後に,強固な知識蒸留が学生ネットワークのダイナミクスに与える影響について考察し,akdがネットワークのキャリブレーションを改善し,モデルが学習しにくい,あるいは記憶が難しいサンプルのトレーニングダイナミクスを変化させていることを示す。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Dynamic Guidance Adversarial Distillation with Enhanced Teacher Knowledge [17.382306203152943]
Dynamic Guidance Adversarial Distillation (DGAD) フレームワークは、差分サンプルの重要性の課題に取り組む。
DGADは蒸留焦点を動的に調整するためにミスクラス化認識分割(MAP)を使用している。
Error-corrective Label Swapping (ELS) は、クリーン入力と逆入力の両方で教師の誤分類を補正する。
論文 参考訳(メタデータ) (2024-09-03T05:52:37Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - ARDIR: Improving Robustness using Knowledge Distillation of Internal
Representation [2.0875529088206553]
本稿では, 知識蒸留をより効果的に活用するために, 内部表現を用いたAdversarial Robust Distillation (ARDIR)を提案する。
ARDIRは、教師モデルの内部表現を敵の訓練のラベルとして使用する。
実験では,ARDIRが従来の手法より優れていたことを示す。
論文 参考訳(メタデータ) (2022-11-01T03:11:59Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Revisiting Adversarial Robustness Distillation: Robust Soft Labels Make
Student Better [66.69777970159558]
本稿では,ロバスト軟ラベル蒸留法(RSLAD)と呼ばれる新しい対向ロバスト蒸留法を提案する。
RSLADは、学生の学習をガイドするために、頑健な(逆向きに訓練された)大きな教師モデルによって生成される頑健なソフトラベルを完全に活用する。
我々は,既存の逆行訓練および蒸留法に対するRSLADアプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2021-08-18T04:32:35Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。