論文の概要: Proper Network Interpretability Helps Adversarial Robustness in
Classification
- arxiv url: http://arxiv.org/abs/2006.14748v2
- Date: Wed, 21 Oct 2020 18:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:55:52.463750
- Title: Proper Network Interpretability Helps Adversarial Robustness in
Classification
- Title(参考訳): 適切なネットワーク解釈能力は、分類における対人ロバスト性を助ける
- Authors: Akhilan Boopathy, Sijia Liu, Gaoyuan Zhang, Cynthia Liu, Pin-Yu Chen,
Shiyu Chang, Luca Daniel
- Abstract要約: 本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
- 参考スコア(独自算出の注目度): 91.39031895064223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have empirically shown that there exist adversarial examples
that can be hidden from neural network interpretability (namely, making network
interpretation maps visually similar), or interpretability is itself
susceptible to adversarial attacks. In this paper, we theoretically show that
with a proper measurement of interpretation, it is actually difficult to
prevent prediction-evasion adversarial attacks from causing interpretation
discrepancy, as confirmed by experiments on MNIST, CIFAR-10 and Restricted
ImageNet. Spurred by that, we develop an interpretability-aware defensive
scheme built only on promoting robust interpretation (without the need for
resorting to adversarial loss minimization). We show that our defense achieves
both robust classification and robust interpretation, outperforming
state-of-the-art adversarial training methods against attacks of large
perturbation in particular.
- Abstract(参考訳): 近年の研究では、ニューラルネットワークの解釈可能性(すなわち、ネットワークの解釈マップを視覚的に類似させる)から隠せる敵の例が存在することが実証されている。
本稿では,MNIST, CIFAR-10, Restricted ImageNetにおいて, 解釈の適切な測定を行うことで, 予測回避攻撃が解釈の不一致を引き起こすのを防ぐことが実際に困難であることを理論的に示す。
そこで我々は,頑健な解釈を促進すること(敵の損失最小化に頼らずに)を前提とした解釈可能性対応防衛スキームを開発した。
特に大きな摂動攻撃に対して、我々の防御は堅牢な分類と強固な解釈の両方を達成し、最先端の敵対的訓練方法よりも優れています。
関連論文リスト
- Detecting Adversarial Attacks in Semantic Segmentation via Uncertainty Estimation: A Deep Analysis [12.133306321357999]
セグメンテーションのためのニューラルネットワークに対する敵攻撃を検出する不確実性に基づく手法を提案する。
我々は,不確実性に基づく敵攻撃の検出と様々な最先端ニューラルネットワークの詳細な解析を行う。
提案手法の有効性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-08-19T14:13:30Z) - Uncertainty-based Detection of Adversarial Attacks in Semantic
Segmentation [16.109860499330562]
本稿では,セマンティックセグメンテーションにおける敵攻撃検出のための不確実性に基づくアプローチを提案する。
本研究は,複数種類の敵対的攻撃を対象とする摂動画像の検出能力を示す。
論文 参考訳(メタデータ) (2023-05-22T08:36:35Z) - Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense [28.398901783858005]
我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
論文 参考訳(メタデータ) (2023-04-14T04:32:06Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Combating Adversaries with Anti-Adversaries [118.70141983415445]
特に、我々の層は、逆の層とは反対の方向に入力摂動を生成します。
我々は,我々の階層と名目および頑健に訓練されたモデルを組み合わせることで,我々のアプローチの有効性を検証する。
我々の対向層は、クリーンな精度でコストを伴わずにモデルロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2021-03-26T09:36:59Z) - Resilience of Bayesian Layer-Wise Explanations under Adversarial Attacks [3.222802562733787]
決定論的ニューラルネットワークでは,攻撃が失敗した場合でも,サリエンシ解釈が著しく脆弱であることを示す。
ベイジアンニューラルネットワークによるサリエンシの説明は, 対向的摂動下ではかなり安定していることを示す。
論文 参考訳(メタデータ) (2021-02-22T14:07:24Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Attacks and Defenses: An Interpretation Perspective [80.23908920686625]
敵の攻撃と防御に関する最近の研究、特に機械学習の解釈の観点から概観する。
モデル解釈(モデル解釈、英: model interpretation)または解釈可能な機械学習(英: interpretable machine learning)の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
それぞれの解釈に対して、敵の攻撃や防御にどのように使用できるかについて詳述する。
論文 参考訳(メタデータ) (2020-04-23T23:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。