Fugu-MT 論文翻訳(概要): Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks

論文の概要: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks

arxiv url: http://arxiv.org/abs/2312.06230v2
Date: Tue, 28 May 2024 03:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 03:57:34.498656
Title: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
Title（参考訳）: アクティベーショングラディエントに基づくバックドアアタックに対するポゾン化サンプル検出
Authors: Danni Yuan, Shaokui Wei, Mingda Zhang, Li Liu, Baoyuan Wu,
Abstract要約: 我々は, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な有毒試料検出手法を開発した。まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。
参考スコア（独自算出の注目度）: 35.42528584450334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work studies the task of poisoned sample detection for defending against data poisoning based backdoor attacks. Its core challenge is finding a generalizable and discriminative metric to distinguish between clean and various types of poisoned samples (e.g., various triggers, various poisoning ratios). Inspired by a common phenomenon in backdoor attacks that the backdoored model tend to map significantly different poisoned and clean samples within the target class to similar activation areas, we introduce a novel perspective of the circular distribution of the gradients w.r.t. sample activation, dubbed gradient circular distribution (GCD). And, we find two interesting observations based on GCD. One is that the GCD of samples in the target class is much more dispersed than that in the clean class. The other is that in the GCD of target class, poisoned and clean samples are clearly separated. Inspired by above two observations, we develop an innovative three-stage poisoned sample detection approach, called Activation Gradient based Poisoned sample Detection (AGPD). First, we calculate GCDs of all classes from the model trained on the untrustworthy dataset. Then, we identify the target class(es) based on the difference on GCD dispersion between target and clean classes. Last, we filter out poisoned samples within the identified target class(es) based on the clear separation between poisoned and clean samples. Extensive experiments under various settings of backdoor attacks demonstrate the superior detection performance of the proposed method to existing poisoned detection approaches according to sample activation-based metrics.
Abstract（参考訳）: 本研究は,データ中毒によるバックドア攻撃に対する防毒試料検出の課題について検討する。その中核となる課題は、清潔と様々な種類の毒のサンプル(例えば、様々なトリガー、様々な毒の比率)を区別するための、一般化可能で差別的な指標を見つけることである。バックドアモデルが標的クラス内の有毒およびクリーンな試料を同様の活性化領域にマップする傾向にあるというバックドア攻撃の一般的な現象にインスパイアされた我々は、勾配の循環分布(GCD)と呼ばれる勾配の循環分布の新たな視点を導入する。そして,GCDに基づく2つの興味深い観測結果を得た。ひとつは、ターゲットクラスのサンプルのGCDがクリーンクラスのサンプルよりもずっと分散していることです。もう一つは、標的クラスのGCDでは、毒と清潔なサンプルが明確に分離されていることである。以上の2つの観察から着想を得た本研究では, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な3段階毒素検出手法を開発した。まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。種々のバックドア攻撃条件下での広範囲な実験により,本手法が既存の有毒検出方法よりも優れた検出性能を示した。

関連論文リスト

BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.519879298717104]
本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。 2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文参考訳（メタデータ） (2025-05-29T02:49:29Z)
Test-Time Backdoor Detection for Object Detection Models [14.69149115853361]
オブジェクト検出モデルは、バックドア攻撃に対して脆弱である。 TRACE(Transform Consistency Evaluation)は、オブジェクト検出において、テスト時に有毒なサンプルを検出する新しい方法である。 TRACEは、最先端の防御に対するAUROCの30%の改善を示す広範な実験により、ブラックボックス、普遍的なバックドア検出を実現している。
論文参考訳（メタデータ） (2025-03-19T15:12:26Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information [75.36597470578724]
敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。分類器決定境界から遠ざかって, 清浄するgUided Purification (COUP)アルゴリズムを提案する。実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。
論文参考訳（メタデータ） (2024-08-12T02:48:00Z)
CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack [11.815603563125654]
本稿では, 汚染試料のろ過を調べた結果, バックドア攻撃のリスク軽減策について検討した。 CBPF (Composite Backdoor Poison Filtering) と呼ばれる新しい3段階毒素データフィルタリング手法が有効な解法として提案されている。
論文参考訳（メタデータ） (2024-06-23T14:37:24Z)
Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文参考訳（メタデータ） (2024-02-27T12:42:07Z)
DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。 9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文参考訳（メタデータ） (2023-12-18T09:40:38Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
Don't FREAK Out: A Frequency-Inspired Approach to Detecting Backdoor Poisoned Samples in DNNs [130.965542948104]
本稿では, 深部ニューラルネットワーク(DNN)の周波数感度について, クリーンサンプルと有毒試料との比較検討を行った。本稿では, 簡易かつ有効である周波数ベースの有毒試料検出アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-23T12:11:24Z)
DeepPoison: Feature Transfer Based Stealthy Poisoning Attack [2.1445455835823624]
DeepPoisonは、1つの発電機と2つの識別器の斬新な敵対ネットワークです。 DeepPoisonは最先端の攻撃成功率を91.74%まで達成できる。
論文参考訳（メタデータ） (2021-01-06T15:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。