論文の概要: Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization
- arxiv url: http://arxiv.org/abs/2207.13036v2
- Date: Wed, 27 Jul 2022 09:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-31 14:38:16.986136
- Title: Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization
- Title(参考訳): 選択入力勾配正則化ヤコビアンノルムによる移動敵例に対する改良および解釈可能な防御
- Authors: Deyin Liu, Lin Wu, Farid Boussaid, Mohammed Bennamoun
- Abstract要約: ディープニューラルネットワーク(DNN)の堅牢性を改善するために、AT(Adversarial Training)がよく用いられる。
本研究では,ジャコビアンノルムと選択的入力勾配正規化(J-SIGR)に基づくアプローチを提案する。
実験により、提案したJ-SIGRは、転送された敵攻撃に対するロバスト性を向上し、ニューラルネットワークからの予測が容易に解釈できることが示されている。
- 参考スコア(独自算出の注目度): 31.516568778193157
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep neural networks (DNNs) are known to be vulnerable to adversarial
examples that are crafted with imperceptible perturbations, i.e., a small
change in an input image can induce a mis-classification, and thus threatens
the reliability of deep learning based deployment systems. Adversarial training
(AT) is often adopted to improve the robustness of DNNs through training a
mixture of corrupted and clean data. However, most of AT based methods are
ineffective in dealing with \textit{transferred adversarial examples} which are
generated to fool a wide spectrum of defense models, and thus cannot satisfy
the generalization requirement raised in real-world scenarios. Moreover,
adversarially training a defense model in general cannot produce interpretable
predictions towards the inputs with perturbations, whilst a highly
interpretable robust model is required by different domain experts to
understand the behaviour of a DNN. In this work, we propose an approach based
on Jacobian norm and Selective Input Gradient Regularization (J-SIGR), which
suggests the linearized robustness through Jacobian normalization and also
regularizes the perturbation-based saliency maps to imitate the model's
interpretable predictions. As such, we achieve both the improved defense and
high interpretability of DNNs. Finally, we evaluate our method across different
architectures against powerful adversarial attacks. Experiments demonstrate
that the proposed J-SIGR confers improved robustness against transferred
adversarial attacks, and we also show that the predictions from the neural
network are easy to interpret.
- Abstract(参考訳): 深層ニューラルネットワーク(Deep Neural Network, DNN)は、知覚不能な摂動を持つ敵の例に対して脆弱であることが知られており、入力画像の小さな変化は誤分類を誘発し、ディープラーニングベースのデプロイメントシステムの信頼性を脅かす。
逆行訓練(AT)は、劣化したデータとクリーンなデータの混合を訓練することで、DNNの堅牢性を向上させるためにしばしば採用される。
しかし、atベースのメソッドのほとんどは、幅広い防御モデルを騙すために生成される \textit{transfered adversarial examples} を扱うのに効果がなく、実世界のシナリオで生じる一般化要件を満たすことができない。
さらに,DNNの動作を理解するためには,異なるドメインの専門家が高度に解釈可能なロバストモデルを必要とする一方で,一般的に防衛モデルを逆行的に訓練しても,摂動による入力に対する解釈可能な予測は得られない。
本研究では,ジャコビアンノルムと選択的入力勾配正則化(j-sigr)に基づくアプローチを提案し,ジャコビアン正規化による線形化されたロバスト性が示唆されるとともに,モデルの解釈可能な予測を模倣する摂動に基づくサラマンシー写像も定式化する。
そこで我々は,DNNの防御性と高い解釈性を両立させた。
最後に,異なるアーキテクチャをまたいだ手法を,強力な敵攻撃に対して評価する。
実験により, 提案したJ-SIGRは, 対向攻撃に対する堅牢性を向上し, ニューラルネットワークからの予測が容易に解釈できることが示されている。
関連論文リスト
- Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Self-Ensemble Adversarial Training for Improved Robustness [14.244311026737666]
敵の訓練は、あらゆる種類の防衛方法において、様々な敵の攻撃に対する最強の戦略である。
最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。
我々は,歴史モデルの重みを平均化し,頑健な分類器を生成するための,単純だが強力なemphSelf-Ensemble Adversarial Training (SEAT)法を考案した。
論文 参考訳(メタデータ) (2022-03-18T01:12:18Z) - Learning from Attacks: Attacking Variational Autoencoder for Improving
Image Classification [17.881134865491063]
敵対的攻撃はディープニューラルネットワーク(DNN)の堅牢性に対する脅威と見なされることが多い。
この研究は、異なる視点から敵の攻撃を分析する。つまり、敵の例は、予測に有用な暗黙の情報を含んでいる。
データ自己表現とタスク固有の予測にDNNの利点を利用するアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-11T08:48:26Z) - A Unified Wasserstein Distributional Robustness Framework for
Adversarial Training [24.411703133156394]
本稿では、ワッサーシュタイン分布のロバスト性と現在の最先端AT法を結合する統一的なフレームワークを提案する。
我々は、新しいワッサースタインコスト関数と、新しい一連のリスク関数を導入し、標準ATメソッドが我々のフレームワークのそれに対応する特別なケースであることを示す。
この接続は、既存のAT手法の直感的な緩和と一般化をもたらし、分散ロバスト性ATベースのアルゴリズムの新たなファミリーの開発を促進する。
論文 参考訳(メタデータ) (2022-02-27T19:40:29Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。