論文の概要: ExAD: An Ensemble Approach for Explanation-based Adversarial Detection
- arxiv url: http://arxiv.org/abs/2103.11526v1
- Date: Mon, 22 Mar 2021 00:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:23:39.500240
- Title: ExAD: An Ensemble Approach for Explanation-based Adversarial Detection
- Title(参考訳): ExAD: 説明に基づく逆検出のためのアンサンブルアプローチ
- Authors: Raj Vardhan, Ninghao Liu, Phakpoom Chinprutthiwong, Weijie Fu, Zhenyu
Hu, Xia Ben Hu, Guofei Gu
- Abstract要約: 説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 17.455233006559734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent research has shown Deep Neural Networks (DNNs) to be vulnerable to
adversarial examples that induce desired misclassifications in the models. Such
risks impede the application of machine learning in security-sensitive domains.
Several defense methods have been proposed against adversarial attacks to
detect adversarial examples at test time or to make machine learning models
more robust. However, while existing methods are quite effective under blackbox
threat model, where the attacker is not aware of the defense, they are
relatively ineffective under whitebox threat model, where the attacker has full
knowledge of the defense.
In this paper, we propose ExAD, a framework to detect adversarial examples
using an ensemble of explanation techniques. Each explanation technique in ExAD
produces an explanation map identifying the relevance of input variables for
the model's classification. For every class in a dataset, the system includes a
detector network, corresponding to each explanation technique, which is trained
to distinguish between normal and abnormal explanation maps. At test time, if
the explanation map of an input is detected as abnormal by any detector model
of the classified class, then we consider the input to be an adversarial
example. We evaluate our approach using six state-of-the-art adversarial
attacks on three image datasets. Our extensive evaluation shows that our
mechanism can effectively detect these attacks under blackbox threat model with
limited false-positives. Furthermore, we find that our approach achieves
promising results in limiting the success rate of whitebox attacks.
- Abstract(参考訳): 近年の研究では、Deep Neural Networks(DNN)が、モデルの望ましい誤分類を引き起こす敵の例に弱いことが示されている。
このようなリスクは、セキュリティに敏感なドメインにおける機械学習の適用を妨げる。
テスト時に逆行例を検出したり、機械学習モデルをより堅牢にするために、逆行攻撃に対するいくつかの防御方法が提案されている。
しかし、既存の手法は、攻撃者が防御を意識していないブラックボックス脅威モデルでは極めて効果的であるが、攻撃者は防御について十分な知識を持っているホワイトボックス脅威モデルでは比較的効果が低い。
本稿では,説明手法のアンサンブルを用いた逆例検出のためのフレームワークであるexadを提案する。
exadの各説明手法は、モデルの分類に対する入力変数の関連性を識別する説明マップを生成する。
データセットの各クラスに対して、システムは、通常の説明図と異常説明図を区別するように訓練された各説明技法に対応する検出器ネットワークを含む。
テスト時には、分類されたクラスの任意の検出モデルによって入力の説明マップが異常であると検出された場合、入力を逆の例と考える。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
提案手法は, 偽陽性が限定されたブラックボックス脅威モデルにおいて, これらの攻撃を効果的に検出できることを示す。
さらに,本手法はホワイトボックス攻撃の成功率を制限し,有望な結果が得られることを見出した。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Learning to Detect Adversarial Examples Based on Class Scores [0.8411385346896413]
我々は、すでに訓練済みの分類モデルのクラススコアに基づいて、敵の攻撃検出についてより詳しく検討する。
本稿では,SVM(Support Vector Machine)をクラススコアで学習し,逆例を検出することを提案する。
提案手法は,実装が容易でありながら,既存の手法と比較して検出率の向上を図っている。
論文 参考訳(メタデータ) (2021-07-09T13:29:54Z) - BAARD: Blocking Adversarial Examples by Testing for Applicability,
Reliability and Decidability [12.079529913120593]
敵防衛は、機械学習モデルを敵攻撃から保護するが、しばしばある種類のモデルや攻撃に適合する。
ケミノフォマティクスにおける応用可能性ドメインの概念から着想を得た。
本稿では,グローバルかつローカルにインプットをチェックする,シンプルで堅牢な3段階データ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-02T15:24:33Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Detection Defense Against Adversarial Attacks with Saliency Map [7.736844355705379]
ニューラルネットワークは、人間の視覚にほとんど受容できない敵の例に弱いことがよく確認されている。
既存の防衛は、敵の攻撃に対するモデルの堅牢性を強化する傾向にある。
本稿では,新たな雑音と組み合わせた新しい手法を提案し,不整合戦略を用いて敵のサンプルを検出する。
論文 参考訳(メタデータ) (2020-09-06T13:57:17Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。