論文の概要: Can the state of relevant neurons in a deep neural networks serve as
indicators for detecting adversarial attacks?
- arxiv url: http://arxiv.org/abs/2010.15974v1
- Date: Thu, 29 Oct 2020 22:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:44:27.847646
- Title: Can the state of relevant neurons in a deep neural networks serve as
indicators for detecting adversarial attacks?
- Title(参考訳): ディープニューラルネットワークにおける関連ニューロンの状態は、敵の攻撃を検出する指標となるか?
- Authors: Roger Granda, Tinne Tuytelaars, Jose Oramas
- Abstract要約: 本稿では,神経細胞のスパース集合の検査に基づく敵攻撃検出手法を提案する。
これらのスパースニューロンのより深い質的検査は、その状態が敵のサンプルの存在によって変化することを示している。
本手法は, 最先端攻撃法により生成された対向検体を, 最先端検出器と同等の精度で認識することができる。
- 参考スコア(独自算出の注目度): 31.065814452818877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for adversarial attack detection based on the inspection
of a sparse set of neurons. We follow the hypothesis that adversarial attacks
introduce imperceptible perturbations in the input and that these perturbations
change the state of neurons relevant for the concepts modelled by the attacked
model. Therefore, monitoring the status of these neurons would enable the
detection of adversarial attacks. Focusing on the image classification task,
our method identifies neurons that are relevant for the classes predicted by
the model. A deeper qualitative inspection of these sparse set of neurons
indicates that their state changes in the presence of adversarial samples.
Moreover, quantitative results from our empirical evaluation indicate that our
method is capable of recognizing adversarial samples, produced by
state-of-the-art attack methods, with comparable accuracy to that of
state-of-the-art detectors.
- Abstract(参考訳): 本稿では,神経細胞のスパース集合の検査に基づく敵攻撃検出手法を提案する。
我々は、攻撃が入力に知覚不能な摂動をもたらし、これらの摂動が攻撃モデルによってモデル化された概念に関連するニューロンの状態を変えるという仮説に従う。
したがって、これらのニューロンの状態を監視することで、敵の攻撃を検出することができる。
本手法は,画像分類タスクに着目し,モデルによって予測されるクラスに関連するニューロンを特定する。
これらのスパースニューロンのより深い質的検査は、その状態が敵のサンプルの存在によって変化することを示している。
さらに, 実験結果から, 本手法は最先端の検知器と同等の精度で, 最先端のアタック法によって生成された敵のサンプルを認識できることを示した。
関連論文リスト
- Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Visual Analytics of Neuron Vulnerability to Adversarial Attacks on
Convolutional Neural Networks [28.081328051535618]
畳み込みニューラルネットワーク(CNN)に対する敵対的攻撃は、高性能CNNを騙して誤った予測をする可能性がある。
我々の研究は、敵の攻撃を理解するための視覚分析手法を導入している。
視覚分析システムは、敵対的攻撃を解釈するための視覚的推論を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-03-06T01:01:56Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z) - Adversarial Robustness in Deep Learning: Attacks on Fragile Neurons [0.6899744489931016]
第1畳み込み層の結節投棄を用いて, 深層学習アーキテクチャの脆弱で頑健なニューロンを同定した。
これらのニューロンは,ネットワーク上の敵攻撃の分布と相関する。
論文 参考訳(メタデータ) (2022-01-31T14:34:07Z) - Few-shot Backdoor Defense Using Shapley Estimation [123.56934991060788]
我々は、深層ニューラルネットワークに対するバックドア攻撃を軽減するために、Shapley Pruningと呼ばれる新しいアプローチを開発した。
ShapPruningは、感染した数少ないニューロン(全ニューロンの1%以下)を特定し、モデルの構造と正確性を保護する。
様々な攻撃やタスクに対して,本手法の有効性とロバスト性を示す実験を行った。
論文 参考訳(メタデータ) (2021-12-30T02:27:03Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - One Neuron to Fool Them All [12.107259467873094]
我々は、そのニューロンの出力の直接摂動に対するモデル出力の頑健さの観点から、個々のニューロンの感度を評価する。
単一感受性ニューロンのみを標的とする損失関数を用いた攻撃は、完全なモデルをターゲットにしたものと同じくらい効果的に敵の例を見つける。
論文 参考訳(メタデータ) (2020-03-20T16:49:38Z) - RAID: Randomized Adversarial-Input Detection for Neural Networks [7.37305608518763]
本稿では,2次分類器を訓練し,良性入力と逆性入力のニューロン活性化値の違いを識別する,逆性画像検出のための新しい手法であるRAIDを提案する。
RAIDは、一般的な6つの攻撃に対して評価すると、最先端技術よりも信頼性が高く、効果的である。
論文 参考訳(メタデータ) (2020-02-07T13:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。