論文の概要: Identifying Layers Susceptible to Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2107.04827v1
- Date: Sat, 10 Jul 2021 12:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:21:50.041193
- Title: Identifying Layers Susceptible to Adversarial Attacks
- Title(参考訳): 敵攻撃の影響を受けやすい層同定
- Authors: Shoaib Ahmed Siddiqui, Thomas Breuel
- Abstract要約: 一般的なニューラルネットワークアーキテクチャは、敵のサンプルによる攻撃を受けやすい。
その結果, 対立サンプルに対する感受性は, 低レベル特徴抽出層と関連していることがわかった。
この現象には2つの説明がある: 敵攻撃は攻撃クラスにある特徴と区別できない初期層から出力を出力するか、敵攻撃は非敵のサンプルの特徴と統計的に異なる初期層から出力を出力する。
- 参考スコア(独自算出の注目度): 3.1473798197405944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common neural network architectures are susceptible to attack by adversarial
samples. Neural network architectures are commonly thought of as divided into
low-level feature extraction layers and high-level classification layers;
susceptibility of networks to adversarial samples is often thought of as a
problem related to classification rather than feature extraction. We test this
idea by selectively retraining different portions of VGG and ResNet
architectures on CIFAR-10, Imagenette and ImageNet using non-adversarial and
adversarial data. Our experimental results show that susceptibility to
adversarial samples is associated with low-level feature extraction layers.
Therefore, retraining high-level layers is insufficient for achieving
robustness. This phenomenon could have two explanations: either, adversarial
attacks yield outputs from early layers that are indistinguishable from
features found in the attack classes, or adversarial attacks yield outputs from
early layers that differ statistically from features for non-adversarial
samples and do not permit consistent classification by subsequent layers. We
test this question by large-scale non-linear dimensionality reduction and
density modeling on distributions of feature vectors in hidden layers and find
that the feature distributions between non-adversarial and adversarial samples
differ substantially. Our results provide new insights into the statistical
origins of adversarial samples and possible defenses.
- Abstract(参考訳): 一般的なニューラルネットワークアーキテクチャは、敵のサンプルによる攻撃を受けやすい。
ニューラルネットワークアーキテクチャは、一般的に低レベル特徴抽出層と高レベル分類層に分けられるが、逆さまなサンプルへのネットワークの感受性は、特徴抽出よりも分類に関する問題と見なされることが多い。
CIFAR-10, Imagenette, ImageNet 上の VGG と ResNet アーキテクチャの異なる部分を,非逆データと逆データを用いて選択的に再学習することで,このアイデアを検証した。
実験の結果, 対立サンプルに対する感受性は低レベル特徴抽出層と関連していることがわかった。
したがって、高層層の再訓練は堅牢性を達成するには不十分である。
この現象には2つの説明がある: 敵の攻撃は、攻撃クラスに見られる特徴と区別できない初期層からの出力を生じるか、または、敵でないサンプルの特徴と統計的に異なる初期層からの出力を、後続の層で一貫した分類を許さないかである。
隠れ層における特徴ベクトルの分布に関する大規模非線形次元減少と密度モデルを用いてこの問題を検証し,非対角的および対角的標本間の特徴分布が著しく異なることを示す。
本研究は,敵のサンプルの統計的起源と防御可能性に関する新たな知見を提供する。
関連論文リスト
- Adversarial Examples Detection with Enhanced Image Difference Features
based on Local Histogram Equalization [20.132066800052712]
本稿では,高頻度情報強調戦略に基づく逆例検出フレームワークを提案する。
このフレームワークは、敵の例と通常の例との特徴的差異を効果的に抽出し、増幅することができる。
論文 参考訳(メタデータ) (2023-05-08T03:14:01Z) - Boosting Adversarial Transferability via Fusing Logits of Top-1
Decomposed Feature [36.78292952798531]
本稿では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃法を提案する。
提案手法は,中間層特徴量より大きい特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。
論文 参考訳(メタデータ) (2023-05-02T12:27:44Z) - Defending Against Backdoor Attacks by Layer-wise Feature Analysis [11.465401472704732]
ディープニューラルネットワーク(DNN)のトレーニングは通常、大量のトレーニングデータと計算リソースを必要とする。
新たな訓練時間攻撃(バックドア攻撃)は、敵の特定トリガーパターンを含む入力サンプルの誤分類を誘導することを目的としている。
臨界層における不審試料と良性試料の特徴差を解析し, 簡易かつ効果的に汚染試料をろ過する方法を提案する。
論文 参考訳(メタデータ) (2023-02-24T17:16:37Z) - A Systematic Evaluation of Node Embedding Robustness [77.29026280120277]
本研究では,ノード埋め込みモデルのランダムおよび逆毒攻撃に対する経験的ロバスト性を評価する。
ネットワーク特性とノードラベルを用いて計算したエッジの追加,削除,再切り替えの戦略を比較した。
その結果,ノード分類はネットワーク再構成とは対照的に,高い性能劣化に悩まされていることがわかった。
論文 参考訳(メタデータ) (2022-09-16T17:20:23Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Adversarial Examples Detection with Bayesian Neural Network [57.185482121807716]
本稿では,ランダムな成分が予測器の滑らかさを向上できるという観測によって動機づけられた敵の例を検出するための新しい枠組みを提案する。
本稿では,BATer を略した新しいベイズ対向型サンプル検出器を提案し,対向型サンプル検出の性能を向上させる。
論文 参考訳(メタデータ) (2021-05-18T15:51:24Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Understanding and Diagnosing Vulnerability under Adversarial Attacks [62.661498155101654]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,潜在変数の分類に使用される特徴を説明するために,新しい解釈可能性手法であるInterpretGANを提案する。
また、各層がもたらす脆弱性を定量化する最初の診断方法も設計する。
論文 参考訳(メタデータ) (2020-07-17T01:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。