論文の概要: Vanilla Feature Distillation for Improving the Accuracy-Robustness
Trade-Off in Adversarial Training
- arxiv url: http://arxiv.org/abs/2206.02158v1
- Date: Sun, 5 Jun 2022 11:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 15:17:43.553902
- Title: Vanilla Feature Distillation for Improving the Accuracy-Robustness
Trade-Off in Adversarial Training
- Title(参考訳): 逆行訓練におけるバニラ機能蒸留の精度向上
- Authors: Guodong Cao, Zhibo Wang, Xiaowei Dong, Zhifei Zhang, Hengchang Guo,
Zhan Qin, Kui Ren
- Abstract要約: 本稿では,Vanilla Feature Distillation Adversarial Training (VFD-Adv)を提案する。
我々の手法の重要な利点は、既存の作品に普遍的に適応し、強化できることである。
- 参考スコア(独自算出の注目度): 37.5115141623558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training has been widely explored for mitigating attacks against
deep models. However, most existing works are still trapped in the dilemma
between higher accuracy and stronger robustness since they tend to fit a model
towards robust features (not easily tampered with by adversaries) while
ignoring those non-robust but highly predictive features. To achieve a better
robustness-accuracy trade-off, we propose the Vanilla Feature Distillation
Adversarial Training (VFD-Adv), which conducts knowledge distillation from a
pre-trained model (optimized towards high accuracy) to guide adversarial
training towards higher accuracy, i.e., preserving those non-robust but
predictive features. More specifically, both adversarial examples and their
clean counterparts are forced to be aligned in the feature space by distilling
predictive representations from the pre-trained/clean model, while previous
works barely utilize predictive features from clean models. Therefore, the
adversarial training model is updated towards maximally preserving the accuracy
as gaining robustness. A key advantage of our method is that it can be
universally adapted to and boost existing works. Exhaustive experiments on
various datasets, classification models, and adversarial training algorithms
demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 敵の訓練は深層モデルに対する攻撃を緩和するために広く研究されてきた。
しかし、既存の作品の多くは、ロバストでないが高い予測機能を無視しながら、ロバストな機能(敵によって簡単に改ざんされない)へのモデルに適合する傾向があるため、高い精度と強固な堅牢性の間のジレンマに閉じ込められている。
よりロバストで高精度なトレードオフを実現するため,事前学習したモデル(高精度に最適化された)から知識蒸留を行い,高い精度,すなわち非破壊的かつ予測的な特徴を保存するためのバニラ特徴蒸留訓練(VFD-Adv)を提案する。
より具体的には、事前訓練された/クリーンモデルから予測表現を蒸留することで、敵の例もクリーンモデルも特徴空間に整列せざるを得なくなり、以前の研究はクリーンモデルから予測的特徴をほとんど利用しなかった。
これにより、頑健性が得られるように精度を最大に保ちたい敵訓練モデルを更新する。
この手法の重要な利点は、既存の作品に普遍的に適応し、促進できることである。
各種データセット,分類モデル,および逆行訓練アルゴリズムの探索実験により,提案手法の有効性を実証した。
関連論文リスト
- Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Focus on Hiders: Exploring Hidden Threats for Enhancing Adversarial
Training [20.1991376813843]
我々は、HFAT(Hider-Focused Adversarial Training)と呼ばれる一般化した逆トレーニングアルゴリズムを提案する。
HFATは、標準的な対向訓練と予防隠蔽装置の最適化方向を組み合わせたものである。
提案手法の有効性を実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T08:41:18Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning [134.15174177472807]
対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。
提案するフレームワークが大きなパフォーマンスマージンを達成できることを示すため,広範な実験を行う。
論文 参考訳(メタデータ) (2020-03-28T18:28:33Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z) - Revisiting Ensembles in an Adversarial Context: Improving Natural
Accuracy [5.482532589225552]
頑丈なモデルと非ロバストなモデルの間には、依然として自然な精度に大きなギャップがある。
この性能差を軽減するために,多数のアンサンブル法について検討する。
ランダムにロバストなモデルからの予測と、ロバストモデルと標準モデルから特徴を融合する2つのスキームを考える。
論文 参考訳(メタデータ) (2020-02-26T15:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。