論文の概要: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2312.06230v1
- Date: Mon, 11 Dec 2023 09:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 12:36:38.847937
- Title: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
- Title(参考訳): アクティベーショングラディエントに基づくバックドアアタックに対するポゾン化サンプル検出
- Authors: Danni Yuan, Shaokui Wei, Mingda Zhang, Li Liu, Baoyuan Wu,
- Abstract要約: この研究は、ディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす、データ中毒ベースのバックドア攻撃に対する防御に焦点を当てている。
我々は,潜在的な有毒試料,すなわち有毒試料検出(PSD)を除去することを目指している。
本研究では,信頼できないデータセットでトレーニングしたバックドアモデルにおいて,各サンプルの勾配wrt活性化(すなわち,アクティベーション勾配方向,AGD)の観点から,革新的な検出手法を開発する。
- 参考スコア(独自算出の注目度): 35.42528584450334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on defending against the data poisoning based backdoor attacks, which bring in serious security threats to deep neural networks (DNNs). Specifically, given a untrustworthy training dataset, we aim to filter out potential poisoned samples, \ie, poisoned sample detection (PSD). The key solution for this task is to find a discriminative metric between clean and poisoned samples, even though there is no information about the potential poisoned samples (\eg, the attack method, the poisoning ratio). In this work, we develop an innovative detection approach from the perspective of the gradient \wrt activation (\ie, activation gradient direction, AGD) of each sample in the backdoored model trained on the untrustworthy dataset. We present an interesting observation that the circular distribution of AGDs among all samples of the target class is much more dispersed than that of one clean class. Motivated by this observation, we firstly design a novel metric called Cosine similarity Variation towards Basis Transition (CVBT) to measure the circular distribution's dispersion of each class. Then, we design a simple yet effective algorithm with identifying the target class(es) using outlier detection on CVBT scores of all classes, followed by progressively filtering of poisoned samples according to the cosine similarities of AGDs between every potential sample and a few additional clean samples. Extensive experiments under various settings verify that given very few clean samples of each class, the proposed method could filter out most poisoned samples, while avoiding filtering out clean samples, verifying its effectiveness on the PSD task. Codes are available at https://github.com/SCLBD/bdzoo2/blob/dev/detection_pretrain/agpd.py.
- Abstract(参考訳): この研究は、ディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす、データ中毒ベースのバックドア攻撃に対する防御に焦点を当てている。
具体的には、信頼できないトレーニングデータセットを考慮し、潜在的に有毒なサンプルであるShaie、有毒なサンプル検出(PSD)をフィルタリングすることを目的としている。
この課題の鍵となる解決策は、潜在的に有毒な試料に関する情報がないにもかかわらず、清潔な試料と有毒な試料の識別基準を見つけることである。
本研究では,信頼できないデータセットでトレーニングしたバックドアモデルにおいて,各サンプルの勾配 \wrt 活性化(\ie, アクティベーション 勾配方向, AGD)の観点から,革新的な検出手法を開発する。
対象クラスの全サンプルにおけるAGDの円周分布は, 1つのクリーンクラスよりもはるかに分散している,という興味深い観察結果が得られた。
この観測により,まず,各クラスの円分布の分散を測定するために,CVBT(Cosine similarity Variation to Basis Transition)と呼ばれる新しい尺度を設計した。
そこで本研究では,すべてのクラスにおけるCVBTスコアの外れ値検出を用いて,対象クラス(es)を同定する簡単なアルゴリズムを設計し,各サンプルと追加のクリーンサンプルとのAGDのコサイン類似性に応じて,有害サンプルを段階的にフィルタリングする手法を提案する。
様々な環境下での広範囲な実験により、各クラスの清浄なサンプルがほとんどない場合には、ほとんどの有毒なサンプルをろ過し、清浄なサンプルをろ過することを避け、PSDタスクにおけるその有効性を検証することができる。
コードはhttps://github.com/SCLBD/bdzoo2/blob/dev/detection_pretrain/agpd.pyで公開されている。
関連論文リスト
- DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文 参考訳(メタデータ) (2023-12-18T09:40:38Z) - Explore the Effect of Data Selection on Poison Efficiency in Backdoor
Attacks [10.817607451423765]
本研究では,サンプル選択の観点から,バックドアアタックの毒殺効率の向上に焦点をあてる。
各種毒物試料の寄与を示すために, 試料の忘れイベントを採用し, 損失面の曲率を用いて, この現象の有効性を解析した。
論文 参考訳(メタデータ) (2023-10-15T05:55:23Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Don't FREAK Out: A Frequency-Inspired Approach to Detecting Backdoor
Poisoned Samples in DNNs [130.965542948104]
本稿では, 深部ニューラルネットワーク(DNN)の周波数感度について, クリーンサンプルと有毒試料との比較検討を行った。
本稿では, 簡易かつ有効である周波数ベースの有毒試料検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T12:11:24Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - Defending Against Backdoor Attacks by Layer-wise Feature Analysis [11.465401472704732]
ディープニューラルネットワーク(DNN)のトレーニングは通常、大量のトレーニングデータと計算リソースを必要とする。
新たな訓練時間攻撃(バックドア攻撃)は、敵の特定トリガーパターンを含む入力サンプルの誤分類を誘導することを目的としている。
臨界層における不審試料と良性試料の特徴差を解析し, 簡易かつ効果的に汚染試料をろ過する方法を提案する。
論文 参考訳(メタデータ) (2023-02-24T17:16:37Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。