論文の概要: Unsupervised Detection of Adversarial Examples with Model Explanations
- arxiv url: http://arxiv.org/abs/2107.10480v1
- Date: Thu, 22 Jul 2021 06:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 20:26:01.823148
- Title: Unsupervised Detection of Adversarial Examples with Model Explanations
- Title(参考訳): モデル説明による逆例の教師なし検出
- Authors: Gihyuk Ko, Gyumin Lim
- Abstract要約: 本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) have shown remarkable performance in a diverse
range of machine learning applications. However, it is widely known that DNNs
are vulnerable to simple adversarial perturbations, which causes the model to
incorrectly classify inputs. In this paper, we propose a simple yet effective
method to detect adversarial examples, using methods developed to explain the
model's behavior. Our key observation is that adding small, humanly
imperceptible perturbations can lead to drastic changes in the model
explanations, resulting in unusual or irregular forms of explanations. From
this insight, we propose an unsupervised detection of adversarial examples
using reconstructor networks trained only on model explanations of benign
examples. Our evaluations with MNIST handwritten dataset show that our method
is capable of detecting adversarial examples generated by the state-of-the-art
algorithms with high confidence. To the best of our knowledge, this work is the
first in suggesting unsupervised defense method using model explanations.
- Abstract(参考訳): Deep Neural Networks(DNN)は、さまざまな機械学習アプリケーションで顕著なパフォーマンスを示している。
しかし、DNNは単純な逆転摂動に弱いことが広く知られており、入力を誤って分類する原因となっている。
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出する方法を提案する。
私たちの重要な観察は、小さな、人間に知覚できない摂動がモデル説明の劇的な変化を招き、異常な形式や不規則な説明を生じさせることである。
そこで本研究では,良性例のモデル説明のみに基づいて学習した再構成ネットワークを用いて,非教師なしの逆例検出を提案する。
mnist手書きデータセットを用いた評価の結果,最先端アルゴリズムが生成する逆例を高い信頼度で検出できることがわかった。
我々の知る限り、この研究はモデル説明を用いた教師なし防御手法を提案する最初のものである。
関連論文リスト
- Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Adversarial Examples Detection with Enhanced Image Difference Features
based on Local Histogram Equalization [20.132066800052712]
本稿では,高頻度情報強調戦略に基づく逆例検出フレームワークを提案する。
このフレームワークは、敵の例と通常の例との特徴的差異を効果的に抽出し、増幅することができる。
論文 参考訳(メタデータ) (2023-05-08T03:14:01Z) - On the Robustness of Explanations of Deep Neural Network Models: A
Survey [14.940679892694089]
本稿では,Deep Neural Network(DNN)モデルの説明を研究・理解・攻撃・防衛する手法の総合的な調査を行う。
また,説明手法の評価や属性攻撃,防衛手法の詳細な検討を行う。
論文 参考訳(メタデータ) (2022-11-09T10:14:21Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。