論文の概要: DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.11057v2
- Date: Wed, 20 Dec 2023 01:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 12:38:23.716502
- Title: DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models
- Title(参考訳): DataElixir: 拡散モデルによるバックドアアタックを緩和するポゾンデータセット
- Authors: Jiachen Zhou, Peizhuo Lv, Yibing Lan, Guozhu Meng, Kai Chen, Hualong
Ma
- Abstract要約: 汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
- 参考スコア(独自算出の注目度): 12.42597979026873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset sanitization is a widely adopted proactive defense against
poisoning-based backdoor attacks, aimed at filtering out and removing poisoned
samples from training datasets. However, existing methods have shown limited
efficacy in countering the ever-evolving trigger functions, and often leading
to considerable degradation of benign accuracy. In this paper, we propose
DataElixir, a novel sanitization approach tailored to purify poisoned datasets.
We leverage diffusion models to eliminate trigger features and restore benign
features, thereby turning the poisoned samples into benign ones. Specifically,
with multiple iterations of the forward and reverse process, we extract
intermediary images and their predicted labels for each sample in the original
dataset. Then, we identify anomalous samples in terms of the presence of label
transition of the intermediary images, detect the target label by quantifying
distribution discrepancy, select their purified images considering pixel and
feature distance, and determine their ground-truth labels by training a benign
model. Experiments conducted on 9 popular attacks demonstrates that DataElixir
effectively mitigates various complex attacks while exerting minimal impact on
benign accuracy, surpassing the performance of baseline defense methods.
- Abstract(参考訳): Dataset sanitizationは、トレーニングデータセットから有毒なサンプルをフィルタリングし除去することを目的とした、中毒ベースのバックドア攻撃に対する、広く採用されている積極的な防御である。
しかし、既存の手法では進化を続けるトリガー機能に対抗する効果が限られており、しばしば良性精度が著しく低下する。
本稿では,毒性データセットの浄化に適した新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーを取り除き、良性の特徴を復元し、有毒なサンプルを良性なものに変える。
具体的には、前処理と逆処理を複数回繰り返して、原データセットの各サンプルに対して中間画像とその予測ラベルを抽出する。
そして,中間画像のラベル遷移の有無から異常サンプルを識別し,分布不一致を定量化して対象ラベルを検出し,画素と特徴距離を考慮した精製画像を選択し,良質なモデルをトレーニングしてその地味ラベルを決定する。
9つの一般的な攻撃実験により、DataElixirは様々な複雑な攻撃を効果的に軽減し、良識の精度に最小限の影響を及ぼし、ベースライン防御法の性能を上回っていることが示された。
関連論文リスト
- Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。
我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。
提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-11-24T20:56:18Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information [75.36597470578724]
敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。
分類器決定境界から遠ざかって, 清浄するgUided Purification (COUP)アルゴリズムを提案する。
実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack [11.815603563125654]
本稿では, 汚染試料のろ過を調べた結果, バックドア攻撃のリスク軽減策について検討した。
CBPF (Composite Backdoor Poison Filtering) と呼ばれる新しい3段階毒素データフィルタリング手法が有効な解法として提案されている。
論文 参考訳(メタデータ) (2024-06-23T14:37:24Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning
Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。
我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。
我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文 参考訳(メタデータ) (2023-03-07T01:55:26Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。