論文の概要: Sample Efficient Detection and Classification of Adversarial Attacks via
Self-Supervised Embeddings
- arxiv url: http://arxiv.org/abs/2108.13797v1
- Date: Mon, 30 Aug 2021 16:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 06:49:20.406309
- Title: Sample Efficient Detection and Classification of Adversarial Attacks via
Self-Supervised Embeddings
- Title(参考訳): 自己監督型埋め込みによる敵攻撃の検出と分類
- Authors: Mazda Moayeri and Soheil Feizi
- Abstract要約: ディープモデルのアドリヤロバスト性は、現実世界の環境において安全な配置を確保する上で重要な要素である。
本稿では、敵攻撃を検知し、それらの脅威モデルに分類する自己教師型手法を提案する。
我々は,SimCLRエンコーダを実験で使用しています。
- 参考スコア(独自算出の注目度): 40.332149464256496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial robustness of deep models is pivotal in ensuring safe deployment
in real world settings, but most modern defenses have narrow scope and
expensive costs. In this paper, we propose a self-supervised method to detect
adversarial attacks and classify them to their respective threat models, based
on a linear model operating on the embeddings from a pre-trained
self-supervised encoder. We use a SimCLR encoder in our experiments, since we
show the SimCLR embedding distance is a good proxy for human perceptibility,
enabling it to encapsulate many threat models at once. We call our method
SimCat since it uses SimCLR encoder to catch and categorize various types of
adversarial attacks, including L_p and non-L_p evasion attacks, as well as data
poisonings. The simple nature of a linear classifier makes our method efficient
in both time and sample complexity. For example, on SVHN, using only five pairs
of clean and adversarial examples computed with a PGD-L_inf attack, SimCat's
detection accuracy is over 85%. Moreover, on ImageNet, using only 25 examples
from each threat model, SimCat can classify eight different attack types such
as PGD-L_2, PGD-L_inf, CW-L_2, PPGD, LPA, StAdv, ReColor, and JPEG-L_inf, with
over 40% accuracy. On STL10 data, we apply SimCat as a defense against
poisoning attacks, such as BP, CP, FC, CLBD, HTBD, halving the success rate
while using only twenty total poisons for training. We find that the detectors
generalize well to unseen threat models. Lastly, we investigate the performance
of our detection method under adaptive attacks and further boost its robustness
against such attacks via adversarial training.
- Abstract(参考訳): 深層モデルの敵対的堅牢性は、現実世界の環境で安全な配置を確保する上で重要であるが、現代の防御のほとんどはスコープが狭く、コストがかかる。
本稿では,事前学習された自己教師付きエンコーダからの埋め込みに基づく線形モデルに基づいて,敵の攻撃を検知し,それぞれの脅威モデルに分類する自己教師付き手法を提案する。
実験では、SimCLRエンコーダを使用し、SimCLR埋め込み距離が人間の知覚可能性のよいプロキシであることを示し、同時に多くの脅威モデルをカプセル化できるようにする。
我々は,SimCLRエンコーダを用いて,L_pや非L_p回避攻撃,データ中毒など,さまざまな種類の敵攻撃を捕捉・分類するので,SimCatと呼ぶ。
線形分類器の単純な性質は,時間とサンプルの複雑さを両立させる。
例えば、SVHNでは、PGD-L_inf攻撃で計算された5対のクリーンな対対と逆の例を使用して、SimCatの検出精度は85%以上である。
さらに、imagenetでは、各脅威モデルからわずか25の例を使用して、pgd-l_2、pgd-l_inf、cw-l_2、ppgd、lpa、stadv、recolor、jpeg-l_infの8種類の攻撃タイプを40%以上の精度で分類することができる。
STL10データでは, BP, CP, FC, CLBD, HTBDなどの毒素攻撃に対する防御としてSimCatを用い, 20種類の総毒素をトレーニングに使用しながら, 成功率を半減させた。
検知器は、目に見えない脅威モデルによく当てはまる。
最後に,アダプティブアタックにおける検出手法の性能について検討し,その頑健性をさらに高めるために,攻撃訓練を行った。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks [18.461079157949698]
画像分類ネットワークに対する バックドア毒殺攻撃
本稿では,毒殺攻撃に対する簡易な自動検出・補正手法を提案する。
我々の手法は、一般的なベンチマークにおいて、NeuralCleanseやSTRIPといった既存の防御よりも優れています。
論文 参考訳(メタデータ) (2022-01-31T23:42:32Z) - Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios [22.22337220509128]
バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-20T22:21:38Z) - Classification Auto-Encoder based Detector against Diverse Data
Poisoning Attacks [7.150136251781658]
毒殺攻撃は、敵対的な機械学習の脅威のカテゴリである。
本稿では,有毒データに対する分類オートエンコーダを用いた検出器であるCAEを提案する。
CAEの強化版(CAE+と呼ばれる)では、防御モデルをトレーニングするためにクリーンなデータセットを使わなくてもよいことを示す。
論文 参考訳(メタデータ) (2021-08-09T17:46:52Z) - Self-Supervised Adversarial Example Detection by Disentangled
Representation [16.98476232162835]
判別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティクス特徴と誤ったペアのクラス/セマンティクス特徴の両方から訓練し,良性と反例を再構築する。
これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。
本手法は,最先端の自己監視検出手法と比較して,様々な測定結果において優れた性能を示す。
論文 参考訳(メタデータ) (2021-05-08T12:48:18Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。