論文の概要: Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios
- arxiv url: http://arxiv.org/abs/2201.08474v1
- Date: Thu, 20 Jan 2022 22:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 21:06:01.123209
- Title: Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios
- Title(参考訳): 2クラスおよび複数攻撃シナリオにおけるバックドア攻撃の訓練後検出
- Authors: Zhen Xiang, David J. Miller, George Kesidis
- Abstract要約: バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.22337220509128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks (BAs) are an emerging threat to deep neural network
classifiers. A victim classifier will predict to an attacker-desired target
class whenever a test sample is embedded with the same backdoor pattern (BP)
that was used to poison the classifier's training set. Detecting whether a
classifier is backdoor attacked is not easy in practice, especially when the
defender is, e.g., a downstream user without access to the classifier's
training set. This challenge is addressed here by a reverse-engineering defense
(RED), which has been shown to yield state-of-the-art performance in several
domains. However, existing REDs are not applicable when there are only {\it two
classes} or when {\it multiple attacks} are present. These scenarios are first
studied in the current paper, under the practical constraints that the defender
neither has access to the classifier's training set nor to supervision from
clean reference classifiers trained for the same domain. We propose a detection
framework based on BP reverse-engineering and a novel {\it expected
transferability} (ET) statistic. We show that our ET statistic is effective
{\it using the same detection threshold}, irrespective of the classification
domain, the attack configuration, and the BP reverse-engineering algorithm that
is used. The excellent performance of our method is demonstrated on six
benchmark datasets. Notably, our detection framework is also applicable to
multi-class scenarios with multiple attacks.
- Abstract(参考訳): バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
被害者の分類器は、分類器のトレーニングセットを毒殺するために使用された同じバックドアパターン(bp)をテストサンプルに埋め込むと、攻撃者が望んでいたターゲットクラスに予測される。
分類器がバックドア攻撃されているかどうかを検知するのは、特にディフェンダーが、分類器のトレーニングセットにアクセスできないダウンストリームユーザである場合には、実際には簡単ではない。
この課題は、いくつかの領域で最先端のパフォーマンスをもたらすことが示されているリバースエンジニアリングディフェンス(RED)によって解決されている。
しかし、既存のREDは2つのクラスしか存在しない場合や、複数の攻撃がある場合に適用できない。
これらのシナリオは、まず現在の論文で研究され、ディフェンダーが分類器のトレーニングセットにアクセスも、同じドメインで訓練されたクリーンな参照分類器からの監督もできないという現実的な制約の下で研究されている。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークと,新しい予測転送可能性 (ET) 統計量を提案する。
ET統計は, 分類領域, 攻撃構成, BPリバースエンジニアリングアルゴリズムによらず, 同一検出しきい値を用いて有効であることを示す。
提案手法の優れた性能を6つのベンチマークデータセットで実証した。
特に、検出フレームワークは複数の攻撃を伴うマルチクラスシナリオにも適用できます。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - UMD: Unsupervised Model Detection for X2X Backdoor Attacks [16.8197731929139]
バックドア(トロイジャン)攻撃はディープニューラルネットワークに対する一般的な脅威であり、トリガーバックドアに埋め込まれた1つ以上のソースクラスのサンプルは、敵のターゲットクラスに誤って分類される。
本稿では,X2Xのバックドア攻撃を,敵対的(ソース,ターゲット)クラスペアの共役推論によって効果的に検出する教師なしモデル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-29T23:06:05Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic [27.62279831135902]
本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
論文 参考訳(メタデータ) (2022-05-13T21:32:24Z) - AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks [18.461079157949698]
画像分類ネットワークに対する バックドア毒殺攻撃
本稿では,毒殺攻撃に対する簡易な自動検出・補正手法を提案する。
我々の手法は、一般的なベンチマークにおいて、NeuralCleanseやSTRIPといった既存の防御よりも優れています。
論文 参考訳(メタデータ) (2022-01-31T23:42:32Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Detecting Backdoor Attacks Against Point Cloud Classifiers [34.14971037420606]
ポイントクラウド(PC)分類器に対する最初のBAが提案され、自律運転を含む多くの重要なアプリケーションに対する新たな脅威が生まれた。
本稿では,PC分類器がトレーニングセットにアクセスすることなく,バックドア攻撃であるかどうかを推定するリバースエンジニアリングディフェンスを提案する。
本研究の有効性を,PC用ベンチマークModeNet40データセットで実証した。
論文 参考訳(メタデータ) (2021-10-20T03:12:06Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。