論文の概要: Explaining Away Attacks Against Neural Networks
- arxiv url: http://arxiv.org/abs/2003.05748v1
- Date: Fri, 6 Mar 2020 15:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 00:25:44.315909
- Title: Explaining Away Attacks Against Neural Networks
- Title(参考訳): ニューラルネットワークに対するアウェイアタックの解説
- Authors: Sean Saito, Jin Wang
- Abstract要約: 画像ベースニューラルネットワークに対する敵攻撃を識別する問題について検討する。
そこで本研究では, クリーンデータと逆データに対するモデル予測における説明の相違について検討した。
本稿では,モデルによる説明に基づいて,与えられた入力が逆方向かどうかを識別できるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.658164271285286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of identifying adversarial attacks on image-based
neural networks. We present intriguing experimental results showing significant
discrepancies between the explanations generated for the predictions of a model
on clean and adversarial data. Utilizing this intuition, we propose a framework
which can identify whether a given input is adversarial based on the
explanations given by the model. Code for our experiments can be found here:
https://github.com/seansaito/Explaining-Away-Attacks-Against-Neural-Networks.
- Abstract(参考訳): 画像ベースニューラルネットワークにおける敵攻撃の特定問題について検討する。
そこで本研究では, クリーンデータと逆データに対するモデル予測における説明の相違について検討した。
この直感を利用して、モデルから与えられた説明に基づいて、与えられた入力が逆方向かどうかを識別できるフレームワークを提案する。
実験のコードは、https://github.com/seansaito/explaining-away-attacks-against-neural-networks。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - On Modifying a Neural Network's Perception [3.42658286826597]
本研究では,人間の定義した概念に対して,人工ニューラルネットワークが知覚しているものを修正する手法を提案する。
提案手法を異なるモデルで検証し、実行された操作がモデルによって適切に解釈されているかどうかを評価し、それらに対してどのように反応するかを解析する。
論文 参考訳(メタデータ) (2023-03-05T12:09:37Z) - A Novel Explainable Out-of-Distribution Detection Approach for Spiking
Neural Networks [6.100274095771616]
この研究は、スパイキングニューラルネットワークに入力されたテスト例がトレーニングされたデータの分布に属するかどうかを識別できる新しいOoD検出器を提案する。
我々は、スパイクカウントパターンの形で、ネットワークの隠蔽層の内部活性化を特徴付ける。
入力インスタンスのどの部分が最もOoDサンプルとして検出されるかを明らかにする属性マップを作成するために,局所的な説明法が考案された。
論文 参考訳(メタデータ) (2022-09-30T11:16:35Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z) - Explain by Evidence: An Explainable Memory-based Neural Network for
Question Answering [41.73026155036886]
本稿では,エビデンスに基づくメモリネットワークアーキテクチャを提案する。
データセットを要約し、その決定を下すための証拠を抽出することを学ぶ。
本モデルは,2つの質問応答データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-05T21:18:21Z) - Neural Networks with Recurrent Generative Feedback [61.90658210112138]
畳み込みニューラルネットワーク(CNN)でこの設計をインスタンス化する
実験では、標準ベンチマーク上の従来のフィードフォワードCNNに対して、CNN-Fは敵のロバスト性を大幅に改善した。
論文 参考訳(メタデータ) (2020-07-17T19:32:48Z) - Analyzing the Noise Robustness of Deep Neural Networks [43.63911131982369]
通常の例に小さいが故意に知覚できない摂動を加えることで生じる敵対的な例は、深層ニューラルネットワーク(DNN)を誤認して誤った予測をする可能性がある。
本稿では,なぜ敵対的事例が誤分類されたのかを説明するための視覚解析手法を提案する。
論文 参考訳(メタデータ) (2020-01-26T03:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。