論文の概要: MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic
- arxiv url: http://arxiv.org/abs/2205.06900v2
- Date: Sun, 6 Aug 2023 16:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 01:18:09.997284
- Title: MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic
- Title(参考訳): MM-BD:最大マルジン統計を用いた任意バックドアパターン型バックドア攻撃の訓練後検出
- Authors: Hang Wang, Zhen Xiang, David J. Miller, George Kesidis
- Abstract要約: 本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
- 参考スコア(独自算出の注目度): 27.62279831135902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks are an important type of adversarial threat against deep
neural network classifiers, wherein test samples from one or more source
classes will be (mis)classified to the attacker's target class when a backdoor
pattern is embedded. In this paper, we focus on the post-training backdoor
defense scenario commonly considered in the literature, where the defender aims
to detect whether a trained classifier was backdoor-attacked without any access
to the training set. Many post-training detectors are designed to detect
attacks that use either one or a few specific backdoor embedding functions
(e.g., patch-replacement or additive attacks). These detectors may fail when
the backdoor embedding function used by the attacker (unknown to the defender)
is different from the backdoor embedding function assumed by the defender. In
contrast, we propose a post-training defense that detects backdoor attacks with
arbitrary types of backdoor embeddings, without making any assumptions about
the backdoor embedding type. Our detector leverages the influence of the
backdoor attack, independent of the backdoor embedding mechanism, on the
landscape of the classifier's outputs prior to the softmax layer. For each
class, a maximum margin statistic is estimated. Detection inference is then
performed by applying an unsupervised anomaly detector to these statistics.
Thus, our detector does not need any legitimate clean samples, and can
efficiently detect backdoor attacks with arbitrary numbers of source classes.
These advantages over several state-of-the-art methods are demonstrated on four
datasets, for three different types of backdoor patterns, and for a variety of
attack configurations. Finally, we propose a novel, general approach for
backdoor mitigation once a detection is made. The mitigation approach was the
runner-up at the first IEEE Trojan Removal Competition. The code is online
available.
- Abstract(参考訳): バックドア攻撃は、ディープニューラルネットワーク分類器に対する重要なタイプの敵対的脅威であり、バックドアパターンが埋め込まれた場合、1つ以上のソースクラスのテストサンプルをアタッカーのターゲットクラスに(ミス)分類する。
本報告では,訓練後のバックドア防御シナリオを文献でよく検討し,訓練された分類器が訓練セットにアクセスせずにバックドア攻撃を受けたかどうかをディフェンダーが検出することを目的とした。
多くのポストトレーニング検出器は、1つまたはいくつかの特定のバックドア埋め込み機能(例えばパッチ置換または追加攻撃)を使用する攻撃を検出するように設計されている。
これらの検出器は、攻撃者が使用するバックドア埋め込み関数(ディフェンダーとは無関係)がディフェンダーが想定するバックドア埋め込み関数とは異なる場合に失敗する可能性がある。
対照的に,バックドア埋め込み型を仮定することなく,任意のタイプのバックドア埋め込みによるバックドア攻撃を検出するポストトレーニング防御を提案する。
この検出器は, バックドア埋め込み機構に依存しないバックドアアタックの影響を, ソフトマックス層に先立って, 分類器出力のランドスケープに生かしている。
各クラスについて、最大マージン統計を推定する。
次に、これらの統計に教師なし異常検出器を適用することで検出推定を行う。
したがって,検出には正当なクリーンサンプルは不要であり,任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
これらの利点は、4つのデータセット、3つの異なる種類のバックドアパターン、および様々な攻撃構成で示される。
最後に,検出が完了するとバックドア緩和のための新しい汎用的アプローチを提案する。
緩和アプローチは第1回ieeeトロイの木馬除去競技の次点であった。
コードはオンラインで入手できる。
関連論文リスト
- Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - BEAGLE: Forensics of Deep Learning Backdoor Attack for Better Defense [26.314275611787984]
攻撃法医学は、従来のサイバー攻撃に対する重要な対策である。
ディープラーニングのバックドア攻撃は、従来のサイバー攻撃と同様の脅威モデルを持つ。
本稿では,新しいバックドア法医学手法を提案する。
論文 参考訳(メタデータ) (2023-01-16T02:59:40Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Contributor-Aware Defenses Against Adversarial Backdoor Attacks [2.830541450812474]
敵のバックドア攻撃は 特定の事例を 狙った誤分類を行う能力を示した
本稿では,多元的,潜在的に敵対的なデータソースの存在下で学習するための,コントリビュータを意識したユニバーサル・ディフェンス・フレームワークを提案する。
本研究は,複数の同時敵からの敵のバックドア攻撃に対するフレームワークの堅牢性を示す実証的研究である。
論文 参考訳(メタデータ) (2022-05-28T20:25:34Z) - Test-Time Detection of Backdoor Triggers for Poisoned Deep Neural
Networks [24.532269628999025]
深層ニューラルネットワーク(DNN)に対するバックドア(トロイの木馬)攻撃が出現
本稿では,画像分類に対するバックドア攻撃に対する「飛行中」防御法を提案する。
論文 参考訳(メタデータ) (2021-12-06T20:52:00Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。