論文の概要: Neural Fingerprints for Adversarial Attack Detection
- arxiv url: http://arxiv.org/abs/2411.04533v1
- Date: Thu, 07 Nov 2024 08:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:20.617171
- Title: Neural Fingerprints for Adversarial Attack Detection
- Title(参考訳): 逆攻撃検出のためのニューラルフィンガープリント
- Authors: Haim Fisher, Moni Shahar, Yehezkel S. Resheff,
- Abstract要約: ディープラーニングモデルのよく知られた脆弱性は、敵の例に対する感受性である。
この問題に対処するために多くのアルゴリズムが提案され、一般に2つのカテゴリの1つに分類される。
我々は、攻撃者がネットワークと検出器の構成と重みを知っているホワイトボックス環境では、検出器を克服できると主張している。
この問題は、非常に優れたモデルでさえ安全性を確保するのに不十分なセキュリティアプリケーションで一般的である。
- 参考スコア(独自算出の注目度): 2.7309692684728613
- License:
- Abstract: Deep learning models for image classification have become standard tools in recent years. A well known vulnerability of these models is their susceptibility to adversarial examples. These are generated by slightly altering an image of a certain class in a way that is imperceptible to humans but causes the model to classify it wrongly as another class. Many algorithms have been proposed to address this problem, falling generally into one of two categories: (i) building robust classifiers (ii) directly detecting attacked images. Despite the good performance of these detectors, we argue that in a white-box setting, where the attacker knows the configuration and weights of the network and the detector, they can overcome the detector by running many examples on a local copy, and sending only those that were not detected to the actual model. This problem is common in security applications where even a very good model is not sufficient to ensure safety. In this paper we propose to overcome this inherent limitation of any static defence with randomization. To do so, one must generate a very large family of detectors with consistent performance, and select one or more of them randomly for each input. For the individual detectors, we suggest the method of neural fingerprints. In the training phase, for each class we repeatedly sample a tiny random subset of neurons from certain layers of the network, and if their average is sufficiently different between clean and attacked images of the focal class they are considered a fingerprint and added to the detector bank. During test time, we sample fingerprints from the bank associated with the label predicted by the model, and detect attacks using a likelihood ratio test. We evaluate our detectors on ImageNet with different attack methods and model architectures, and show near-perfect detection with low rates of false detection.
- Abstract(参考訳): 近年,画像分類のためのディープラーニングモデルが標準ツールとなっている。
これらのモデルのよく知られた脆弱性は、敵の例に対する感受性である。
これらは、人間には認識できない方法で、あるクラスのイメージをわずかに変更することで生成されるが、モデルがそれを別のクラスとして誤って分類する原因となる。
この問題に対処するために多くのアルゴリズムが提案され、一般的には2つのカテゴリの1つに分類される。
(i)堅牢な分類器の構築
(ii) 攻撃された画像を直接検出する。
これらの検知器の性能は良好であるにもかかわらず、攻撃者がネットワークと検出器の構成と重みを知っているホワイトボックス環境では、ローカルコピーで多くの例を実行し、実際のモデルに検出されていないもののみを送信することで、検出器を克服できると主張している。
この問題は、非常に優れたモデルでさえ安全性を確保するのに不十分なセキュリティアプリケーションで一般的である。
本稿では,ランダム化による静的ディフェンスの本質的な制限を克服することを提案する。
そのためには、一貫した性能で非常に大きな検出器群を生成し、各入力に対してランダムに1つまたは複数の検出器を選択する必要がある。
個々の検出器に対して,ニューラルフィンガープリントの手法を提案する。
トレーニングフェーズでは、各クラスに対して、ネットワークの特定の層から小さなランダムなニューロンのサブセットを繰り返しサンプリングし、それらの平均値が、焦点クラスのクリーン画像とアタック画像とで十分に異なる場合、指紋と見なされ、検出器バンクに追加される。
テスト期間中に,モデルにより予測されたラベルに関連付けられた銀行の指紋を採取し,確率比検定を用いて攻撃を検出する。
我々は、異なる攻撃方法とモデルアーキテクチャを用いてImageNet上の検出器を評価し、偽検出率の低いほぼ完全検出を示す。
関連論文リスト
- HOLMES: to Detect Adversarial Examples with Multiple Detectors [1.455585466338228]
HOLMESは、高い精度と偽陽性率の低い複数の攻撃から、テクスチュンシンの敵の例を識別することができる。
我々の効果的で安価な戦略は、オリジナルのDNNモデルを変更したり、内部パラメータを必要としたりしない。
論文 参考訳(メタデータ) (2024-05-30T11:22:55Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Btech thesis report on adversarial attack detection and purification of
adverserially attacked images [0.0]
本論文は, 負の攻撃を受けた画像の検出と浄化に関するものである。
ディープラーニングモデルは、分類、回帰などの様々なタスクのための特定のトレーニング例に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-09T09:24:11Z) - Detecting Adversaries, yet Faltering to Noise? Leveraging Conditional
Variational AutoEncoders for Adversary Detection in the Presence of Noisy
Images [0.7734726150561086]
条件変分オートエンコーダ(CVAE)は、知覚不能な画像摂動を検出するのに驚くほど優れている。
画像分類ネットワーク上での敵攻撃を検出するために,CVAEを効果的に利用する方法を示す。
論文 参考訳(メタデータ) (2021-11-28T20:36:27Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - Learning to Detect Adversarial Examples Based on Class Scores [0.8411385346896413]
我々は、すでに訓練済みの分類モデルのクラススコアに基づいて、敵の攻撃検出についてより詳しく検討する。
本稿では,SVM(Support Vector Machine)をクラススコアで学習し,逆例を検出することを提案する。
提案手法は,実装が容易でありながら,既存の手法と比較して検出率の向上を図っている。
論文 参考訳(メタデータ) (2021-07-09T13:29:54Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - Detection as Regression: Certified Object Detection by Median Smoothing [50.89591634725045]
この研究は、ランダム化平滑化による認定分類の最近の進歩によって動機付けられている。
我々は、$ell$-bounded攻撃に対するオブジェクト検出のための、最初のモデル非依存、トレーニング不要、認定された防御条件を得る。
論文 参考訳(メタデータ) (2020-07-07T18:40:19Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。