論文の概要: FLARE: Towards Universal Dataset Purification against Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2411.19479v1
- Date: Fri, 29 Nov 2024 05:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:23.530553
- Title: FLARE: Towards Universal Dataset Purification against Backdoor Attacks
- Title(参考訳): FLARE: バックドア攻撃に対するユニバーサルデータセットの浄化を目指す
- Authors: Linshan Hou, Wei Luo, Zhongyun Hua, Songhua Chen, Leo Yu Zhang, Yiming Li,
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃の影響を受けやすい。
隠れたバックドアを埋め込むために、敵に特定されたトリガーを持つ敵の毒のデータセット。
各種バックドア攻撃に対する汎用的浄化法であるFLAREを提案する。
- 参考スコア(独自算出の注目度): 16.97677097266535
- License:
- Abstract: Deep neural networks (DNNs) are susceptible to backdoor attacks, where adversaries poison datasets with adversary-specified triggers to implant hidden backdoors, enabling malicious manipulation of model predictions. Dataset purification serves as a proactive defense by removing malicious training samples to prevent backdoor injection at its source. We first reveal that the current advanced purification methods rely on a latent assumption that the backdoor connections between triggers and target labels in backdoor attacks are simpler to learn than the benign features. We demonstrate that this assumption, however, does not always hold, especially in all-to-all (A2A) and untargeted (UT) attacks. As a result, purification methods that analyze the separation between the poisoned and benign samples in the input-output space or the final hidden layer space are less effective. We observe that this separability is not confined to a single layer but varies across different hidden layers. Motivated by this understanding, we propose FLARE, a universal purification method to counter various backdoor attacks. FLARE aggregates abnormal activations from all hidden layers to construct representations for clustering. To enhance separation, FLARE develops an adaptive subspace selection algorithm to isolate the optimal space for dividing an entire dataset into two clusters. FLARE assesses the stability of each cluster and identifies the cluster with higher stability as poisoned. Extensive evaluations on benchmark datasets demonstrate the effectiveness of FLARE against 22 representative backdoor attacks, including all-to-one (A2O), all-to-all (A2A), and untargeted (UT) attacks, and its robustness to adaptive attacks.
- Abstract(参考訳): ディープニューラルネットワーク(Deep Neural Network, DNN)はバックドア攻撃の影響を受けやすいもので、敵が特定のトリガーを持つ有害な毒のデータセットが隠れたバックドアを埋め込むことで、モデル予測の悪意ある操作を可能にする。
データセットの浄化は、悪意のあるトレーニングサンプルを除去し、そのソースでのバックドア注入を防ぐことで、積極的に防御する。
先進的な浄化法は, バックドア攻撃におけるトリガーとターゲットラベル間のバックドア接続が, 良質な特徴よりも学習し易いという仮定に頼っていることを最初に明らかにした。
しかしながら、この仮定は、特にオール・ツー・オール(A2A)および未ターゲット(UT)攻撃において常に成り立つわけではない。
その結果、入力出力空間または最終隠蔽層空間における有毒試料と良性試料との分離を分析する浄化方法がより効果的である。
この分離性は単一の層に限定されるのではなく、隠された層によって異なることを観察する。
そこで本研究では,様々なバックドア攻撃に対抗する汎用的浄化法であるFLAREを提案する。
FLAREは、すべての隠されたレイヤからの異常なアクティベーションを集約して、クラスタリングのためのコンストラクト表現を生成する。
分離を強化するため、FLAREは、データセット全体を2つのクラスタに分割する最適な空間を分離する適応部分空間選択アルゴリズムを開発した。
FLAREは各クラスタの安定性を評価し、より高い安定性のクラスタを毒として識別する。
ベンチマークデータセットに対する大規模な評価は、オールツーワン(A2O)、オールツーオール(A2A)、未ターゲット(UT)攻撃を含む22の代表的なバックドア攻撃に対するFLAREの有効性と、適応攻撃に対する堅牢性を示している。
関連論文リスト
- Poisoning with A Pill: Circumventing Detection in Federated Learning [33.915489514978084]
本稿では,FLにおける検出に対する既存のFL中毒攻撃の有効性とステルス性を高めるために,汎用的かつ攻撃に依存しない拡張手法を提案する。
具体的には、FLトレーニング中に、戦略的にピルを構築、生成、注入する3段階の方法論を用いており、それに従ってピル構築、ピル中毒およびピル注入と命名されている。
論文 参考訳(メタデータ) (2024-07-22T05:34:47Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Generalization Bound and New Algorithm for Clean-Label Backdoor Attack [14.80556378962582]
バックドア攻撃は 訓練セットとテストセットの両方に 毒を盛ったトリガーが 含まれているという特別な性質がある
本稿では,クリーンラベルバックドア攻撃シナリオにおいて,アルゴリズムに依存しない一般化境界を導出することにより,このギャップを埋める。
そこで我々は, 敵の騒音と無差別の毒を併用して, 毒を誘発する新しいクリーンラベルバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-06-02T01:46:58Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Universal Detection of Backdoor Attacks via Density-based Clustering and
Centroids Analysis [24.953032059932525]
クラスタリングとセントロイド分析(CCA-UD)に基づくバックドア攻撃に対するユニバーサルディフェンスを提案する。
防御の目的は、ディープラーニングモデルがトレーニングデータセットを検査することでバックドア攻撃の対象になるかどうかを明らかにすることである。
論文 参考訳(メタデータ) (2023-01-11T16:31:38Z) - FedCC: Robust Federated Learning against Model Poisoning Attacks [0.0]
フェデレートラーニング(Federated Learning)は、プライバシの問題に対処するために設計された分散フレームワークである。
新たなアタックサーフェスを導入しており、データは独立に、そしてIdentically Distributedである場合、特に困難である。
我々は,モデル中毒に対する簡易かつ効果的な新しい防御アルゴリズムであるFedCCを提案する。
論文 参考訳(メタデータ) (2022-12-05T01:52:32Z) - Backdoor Defense in Federated Learning Using Differential Testing and
Outlier Detection [24.562359531692504]
バックドア攻撃からFLシステムを保護するための自動防御フレームワークであるDifFenseを提案する。
提案手法は,グローバルモデルの平均バックドア精度を4%以下に低減し,偽陰性率ゼロを達成する。
論文 参考訳(メタデータ) (2022-02-21T17:13:03Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。