論文の概要: Self-Supervised Adversarial Example Detection by Disentangled
Representation
- arxiv url: http://arxiv.org/abs/2105.03689v2
- Date: Wed, 12 May 2021 12:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:36:45.176906
- Title: Self-Supervised Adversarial Example Detection by Disentangled
Representation
- Title(参考訳): アンタングル表現による自己教師付き逆例検出
- Authors: Zhaoxi Zhang, Leo Yu Zhang, Xufei Zheng, Shengshan Hu, Jinyu Tian,
Jiantao Zhou
- Abstract要約: 判別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティクス特徴と誤ったペアのクラス/セマンティクス特徴の両方から訓練し,良性と反例を再構築する。
これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。
本手法は,最先端の自己監視検出手法と比較して,様々な測定結果において優れた性能を示す。
- 参考スコア(独自算出の注目度): 16.98476232162835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning models are known to be vulnerable to adversarial examples that
are elaborately designed for malicious purposes and are imperceptible to the
human perceptual system. Autoencoder, when trained solely over benign examples,
has been widely used for (self-supervised) adversarial detection based on the
assumption that adversarial examples yield larger reconstruction error.
However, because lacking adversarial examples in its training and the too
strong generalization ability of autoencoder, this assumption does not always
hold true in practice. To alleviate this problem, we explore to detect
adversarial examples by disentangled representations of images under the
autoencoder structure. By disentangling input images as class features and
semantic features, we train an autoencoder, assisted by a discriminator
network, over both correctly paired class/semantic features and incorrectly
paired class/semantic features to reconstruct benign and counterexamples. This
mimics the behavior of adversarial examples and can reduce the unnecessary
generalization ability of autoencoder. Compared with the state-of-the-art
self-supervised detection methods, our method exhibits better performance in
various measurements (i.e., AUC, FPR, TPR) over different datasets (MNIST,
Fashion-MNIST and CIFAR-10), different adversarial attack methods (FGSM, BIM,
PGD, DeepFool, and CW) and different victim models (8-layer CNN and 16-layer
VGG). We compare our method with the state-of-the-art self-supervised detection
methods under different adversarial attacks and different victim models (30
attack settings), and it exhibits better performance in various measurements
(AUC, FPR, TPR) for most attacks settings. Ideally, AUC is $1$ and our method
achieves $0.99+$ on CIFAR-10 for all attacks. Notably, different from other
Autoencoder-based detectors, our method can provide resistance to the adaptive
adversary.
- Abstract(参考訳): 深層学習モデルは、悪意のある目的のために精巧に設計され、人間の知覚システムには受け入れられない敵の例に弱いことが知られている。
autoencoderは、良質な例だけを訓練すると、敵の例がより大きな再構成エラーをもたらすという仮定に基づいて、(監視された)敵検出に広く使われている。
しかし、訓練における逆例の欠如やオートエンコーダの強大な一般化能力のため、この仮定は実際には必ずしも成り立たない。
この問題を軽減するために,オートエンコーダ構造下の画像の絡み合った表現を用いて,逆例を検出する。
入力画像をクラスの特徴や意味的特徴として切り離すことで,識別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティック特徴と誤ってペア化されたクラス/セマンティック特徴の両方でトレーニングし,良さと反例を再構築する。
これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。
現状の自己監視検出手法と比較して,本手法は,異なるデータセット(MNIST, Fashion-MNIST, CIFAR-10),異なる敵攻撃手法(FGSM, BIM, PGD, DeepFool, CW),および異なる犠牲者モデル(8層CNN, 16層VGG)に対して,より優れた性能を示す。
本手法は, 対人攻撃と異なる被害者モデル(30件の攻撃設定)下での最先端の自己監視検出手法と比較し, 多くの攻撃設定において, 各種測定(AUC, FPR, TPR)において優れた性能を示す。
理想的には、AUCは1ドルであり、我々の方法はすべての攻撃に対してCIFAR-10で0.99+$を達成する。
特に、他のオートエンコーダベースの検出器とは異なり、我々の手法は適応的な敵に対する抵抗を与えることができる。
関連論文リスト
- ZeroPur: Succinct Training-Free Adversarial Purification [52.963392510839284]
敵の粛清は、様々な目に見えない敵の攻撃を防御できる防衛計算手法の一種である。
我々は、ZeroPurと呼ばれる、逆画像の浄化を更なる訓練なしに簡単な逆画像浄化法を提案する。
論文 参考訳(メタデータ) (2024-06-05T10:58:15Z) - Nowhere to Hide: A Lightweight Unsupervised Detector against Adversarial
Examples [14.332434280103667]
敵対的な例は、わずかながら悪質に作られた摂動を良心的なイメージに追加することによって生成される。
本稿では,AutoEncoderを用いたAdversarial Examples検出器を提案する。
AEAEは、最先端の攻撃に対して教師なしで安価であることを実証的に示す。
論文 参考訳(メタデータ) (2022-10-16T16:29:47Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - DAFAR: Detecting Adversaries by Feedback-Autoencoder Reconstruction [7.867922462470315]
DAFARは、ディープラーニングモデルにより、高い精度と普遍性で敵の例を検出することができる。
ターゲットネットワークに対する受動的摂動攻撃を、フィードバックオートエンコーダに対する明らかなリコンストラクションエラー攻撃に直接変換する。
実験によると、DAFARは合法的なサンプルのパフォーマンスを失うことなく、人気があり、間違いなく最も先進的な攻撃に対して効果的です。
論文 参考訳(メタデータ) (2021-03-11T06:18:50Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z) - Defending Adversarial Attacks via Semantic Feature Manipulation [23.48763375455514]
本稿では,敵の事例を検出・浄化するために,FM(One-off and attack-agnostic Feature Manipulation)-Defenseを提案する。
特徴の操作を可能にするために、コンボ変分オートエンコーダを適用して、意味的特徴を明らかにする非絡み合った潜在符号を学習する。
実験により、FM-Defenseは、異なる最先端の敵攻撃によって生成されるほぼ100%の敵の例を検出できることが示された。
論文 参考訳(メタデータ) (2020-02-03T23:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。