Fugu-MT 論文翻訳(概要): Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks

論文の概要: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks

arxiv url: http://arxiv.org/abs/2312.06230v1
Date: Mon, 11 Dec 2023 09:17:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 12:36:38.847937
Title: Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks
Title（参考訳）: アクティベーショングラディエントに基づくバックドアアタックに対するポゾン化サンプル検出
Authors: Danni Yuan, Shaokui Wei, Mingda Zhang, Li Liu, Baoyuan Wu,
Abstract要約: この研究は、ディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす、データ中毒ベースのバックドア攻撃に対する防御に焦点を当てている。我々は,潜在的な有毒試料,すなわち有毒試料検出(PSD)を除去することを目指している。本研究では,信頼できないデータセットでトレーニングしたバックドアモデルにおいて,各サンプルの勾配wrt活性化(すなわち,アクティベーション勾配方向,AGD)の観点から,革新的な検出手法を開発する。
参考スコア（独自算出の注目度）: 35.42528584450334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work focuses on defending against the data poisoning based backdoor attacks, which bring in serious security threats to deep neural networks (DNNs). Specifically, given a untrustworthy training dataset, we aim to filter out potential poisoned samples, \ie, poisoned sample detection (PSD). The key solution for this task is to find a discriminative metric between clean and poisoned samples, even though there is no information about the potential poisoned samples (\eg, the attack method, the poisoning ratio). In this work, we develop an innovative detection approach from the perspective of the gradient \wrt activation (\ie, activation gradient direction, AGD) of each sample in the backdoored model trained on the untrustworthy dataset. We present an interesting observation that the circular distribution of AGDs among all samples of the target class is much more dispersed than that of one clean class. Motivated by this observation, we firstly design a novel metric called Cosine similarity Variation towards Basis Transition (CVBT) to measure the circular distribution's dispersion of each class. Then, we design a simple yet effective algorithm with identifying the target class(es) using outlier detection on CVBT scores of all classes, followed by progressively filtering of poisoned samples according to the cosine similarities of AGDs between every potential sample and a few additional clean samples. Extensive experiments under various settings verify that given very few clean samples of each class, the proposed method could filter out most poisoned samples, while avoiding filtering out clean samples, verifying its effectiveness on the PSD task. Codes are available at https://github.com/SCLBD/bdzoo2/blob/dev/detection_pretrain/agpd.py.
Abstract（参考訳）: この研究は、ディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす、データ中毒ベースのバックドア攻撃に対する防御に焦点を当てている。具体的には、信頼できないトレーニングデータセットを考慮し、潜在的に有毒なサンプルであるShaie、有毒なサンプル検出(PSD)をフィルタリングすることを目的としている。この課題の鍵となる解決策は、潜在的に有毒な試料に関する情報がないにもかかわらず、清潔な試料と有毒な試料の識別基準を見つけることである。本研究では,信頼できないデータセットでトレーニングしたバックドアモデルにおいて,各サンプルの勾配 \wrt 活性化(\ie, アクティベーション勾配方向, AGD)の観点から,革新的な検出手法を開発する。対象クラスの全サンプルにおけるAGDの円周分布は, 1つのクリーンクラスよりもはるかに分散している,という興味深い観察結果が得られた。この観測により,まず,各クラスの円分布の分散を測定するために,CVBT(Cosine similarity Variation to Basis Transition)と呼ばれる新しい尺度を設計した。そこで本研究では,すべてのクラスにおけるCVBTスコアの外れ値検出を用いて,対象クラス(es)を同定する簡単なアルゴリズムを設計し,各サンプルと追加のクリーンサンプルとのAGDのコサイン類似性に応じて,有害サンプルを段階的にフィルタリングする手法を提案する。様々な環境下での広範囲な実験により、各クラスの清浄なサンプルがほとんどない場合には、ほとんどの有毒なサンプルをろ過し、清浄なサンプルをろ過することを避け、PSDタスクにおけるその有効性を検証することができる。コードはhttps://github.com/SCLBD/bdzoo2/blob/dev/detection_pretrain/agpd.pyで公開されている。

関連論文リスト

BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.519879298717104]
本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。 2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文参考訳（メタデータ） (2025-05-29T02:49:29Z)
Test-Time Backdoor Detection for Object Detection Models [14.69149115853361]
オブジェクト検出モデルは、バックドア攻撃に対して脆弱である。 TRACE(Transform Consistency Evaluation)は、オブジェクト検出において、テスト時に有毒なサンプルを検出する新しい方法である。 TRACEは、最先端の防御に対するAUROCの30%の改善を示す広範な実験により、ブラックボックス、普遍的なバックドア検出を実現している。
論文参考訳（メタデータ） (2025-03-19T15:12:26Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information [75.36597470578724]
敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。分類器決定境界から遠ざかって, 清浄するgUided Purification (COUP)アルゴリズムを提案する。実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。
論文参考訳（メタデータ） (2024-08-12T02:48:00Z)
CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack [11.815603563125654]
本稿では, 汚染試料のろ過を調べた結果, バックドア攻撃のリスク軽減策について検討した。 CBPF (Composite Backdoor Poison Filtering) と呼ばれる新しい3段階毒素データフィルタリング手法が有効な解法として提案されている。
論文参考訳（メタデータ） (2024-06-23T14:37:24Z)
Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文参考訳（メタデータ） (2024-02-27T12:42:07Z)
DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。 9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文参考訳（メタデータ） (2023-12-18T09:40:38Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
Don't FREAK Out: A Frequency-Inspired Approach to Detecting Backdoor Poisoned Samples in DNNs [130.965542948104]
本稿では, 深部ニューラルネットワーク(DNN)の周波数感度について, クリーンサンプルと有毒試料との比較検討を行った。本稿では, 簡易かつ有効である周波数ベースの有毒試料検出アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-23T12:11:24Z)
DeepPoison: Feature Transfer Based Stealthy Poisoning Attack [2.1445455835823624]
DeepPoisonは、1つの発電機と2つの識別器の斬新な敵対ネットワークです。 DeepPoisonは最先端の攻撃成功率を91.74%まで達成できる。
論文参考訳（メタデータ） (2021-01-06T15:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。