論文の概要: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2312.06230v2
- Date: Tue, 28 May 2024 03:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:57:34.498656
- Title: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
- Title(参考訳): アクティベーショングラディエントに基づくバックドアアタックに対するポゾン化サンプル検出
- Authors: Danni Yuan, Shaokui Wei, Mingda Zhang, Li Liu, Baoyuan Wu,
- Abstract要約: 我々は, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な有毒試料検出手法を開発した。
まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。
そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。
最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。
- 参考スコア(独自算出の注目度): 35.42528584450334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the task of poisoned sample detection for defending against data poisoning based backdoor attacks. Its core challenge is finding a generalizable and discriminative metric to distinguish between clean and various types of poisoned samples (e.g., various triggers, various poisoning ratios). Inspired by a common phenomenon in backdoor attacks that the backdoored model tend to map significantly different poisoned and clean samples within the target class to similar activation areas, we introduce a novel perspective of the circular distribution of the gradients w.r.t. sample activation, dubbed gradient circular distribution (GCD). And, we find two interesting observations based on GCD. One is that the GCD of samples in the target class is much more dispersed than that in the clean class. The other is that in the GCD of target class, poisoned and clean samples are clearly separated. Inspired by above two observations, we develop an innovative three-stage poisoned sample detection approach, called Activation Gradient based Poisoned sample Detection (AGPD). First, we calculate GCDs of all classes from the model trained on the untrustworthy dataset. Then, we identify the target class(es) based on the difference on GCD dispersion between target and clean classes. Last, we filter out poisoned samples within the identified target class(es) based on the clear separation between poisoned and clean samples. Extensive experiments under various settings of backdoor attacks demonstrate the superior detection performance of the proposed method to existing poisoned detection approaches according to sample activation-based metrics.
- Abstract(参考訳): 本研究は,データ中毒によるバックドア攻撃に対する防毒試料検出の課題について検討する。
その中核となる課題は、清潔と様々な種類の毒のサンプル(例えば、様々なトリガー、様々な毒の比率)を区別するための、一般化可能で差別的な指標を見つけることである。
バックドアモデルが標的クラス内の有毒およびクリーンな試料を同様の活性化領域にマップする傾向にあるというバックドア攻撃の一般的な現象にインスパイアされた我々は、勾配の循環分布(GCD)と呼ばれる勾配の循環分布の新たな視点を導入する。
そして,GCDに基づく2つの興味深い観測結果を得た。
ひとつは、ターゲットクラスのサンプルのGCDがクリーンクラスのサンプルよりもずっと分散していることです。
もう一つは、標的クラスのGCDでは、毒と清潔なサンプルが明確に分離されていることである。
以上の2つの観察から着想を得た本研究では, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な3段階毒素検出手法を開発した。
まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。
そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。
最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。
種々のバックドア攻撃条件下での広範囲な実験により,本手法が既存の有毒検出方法よりも優れた検出性能を示した。
関連論文リスト
- CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack [11.815603563125654]
本稿では, 汚染試料のろ過を調べた結果, バックドア攻撃のリスク軽減策について検討した。
CBPF (Composite Backdoor Poison Filtering) と呼ばれる新しい3段階毒素データフィルタリング手法が有効な解法として提案されている。
論文 参考訳(メタデータ) (2024-06-23T14:37:24Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文 参考訳(メタデータ) (2023-12-18T09:40:38Z) - Projection Regret: Reducing Background Bias for Novelty Detection via
Diffusion Models [72.07462371883501]
本研究では,非意味情報のバイアスを緩和する効率的な新規性検出手法であるemphProjection Regret(PR)を提案する。
PRは、テスト画像とその拡散ベースの投影の間の知覚距離を計算し、異常を検出する。
拡張実験により、PRは生成モデルに基づく新規性検出手法の先行技術よりも有意なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-12-05T09:44:47Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Don't FREAK Out: A Frequency-Inspired Approach to Detecting Backdoor
Poisoned Samples in DNNs [130.965542948104]
本稿では, 深部ニューラルネットワーク(DNN)の周波数感度について, クリーンサンプルと有毒試料との比較検討を行った。
本稿では, 簡易かつ有効である周波数ベースの有毒試料検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T12:11:24Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - DeepPoison: Feature Transfer Based Stealthy Poisoning Attack [2.1445455835823624]
DeepPoisonは、1つの発電機と2つの識別器の斬新な敵対ネットワークです。
DeepPoisonは最先端の攻撃成功率を91.74%まで達成できる。
論文 参考訳(メタデータ) (2021-01-06T15:45:36Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。