論文の概要: Detecting Backdoor in Deep Neural Networks via Intentional Adversarial
Perturbations
- arxiv url: http://arxiv.org/abs/2105.14259v1
- Date: Sat, 29 May 2021 09:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:46:22.343360
- Title: Detecting Backdoor in Deep Neural Networks via Intentional Adversarial
Perturbations
- Title(参考訳): Intentional Adversarial Perturbationによるディープニューラルネットワークのバックドア検出
- Authors: Mingfu Xue, Yinghao Wu, Zhiyu Wu, Jian Wang, Yushu Zhang, Weiqiang Liu
- Abstract要約: 逆例に基づく新しいバックドア検出手法を提案する。
提案手法はバックドア攻撃の成功率を99.47%から0.37%に下げる。
異なる条件下での攻撃では、提案手法の偽受け入れ率は1.2%、0.3%、0.04%と低い。
- 参考スコア(独自算出の注目度): 9.529588770040183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent researches show that deep learning model is susceptible to backdoor
attacks where the backdoor embedded in the model will be triggered when a
backdoor instance arrives. In this paper, a novel backdoor detection method
based on adversarial examples is proposed. The proposed method leverages
intentional adversarial perturbations to detect whether the image contains a
trigger, which can be applied in two scenarios (sanitize the training set in
training stage and detect the backdoor instances in inference stage).
Specifically, given an untrusted image, the adversarial perturbation is added
to the input image intentionally, if the prediction of model on the perturbed
image is consistent with that on the unperturbed image, the input image will be
considered as a backdoor instance. The proposed adversarial perturbation based
method requires low computational resources and maintains the visual quality of
the images. Experimental results show that, the proposed defense method reduces
the backdoor attack success rates from 99.47%, 99.77% and 97.89% to 0.37%,
0.24% and 0.09% on Fashion-MNIST, CIFAR-10 and GTSRB datasets, respectively.
Besides, the proposed method maintains the visual quality of the image as the
added perturbation is very small. In addition, for attacks under different
settings (trigger transparency, trigger size and trigger pattern), the false
acceptance rates of the proposed method are as low as 1.2%, 0.3% and 0.04% on
Fashion-MNIST, CIFAR-10 and GTSRB datasets, respectively, which demonstrates
that the proposed method can achieve high defense performance against backdoor
attacks under different attack settings.
- Abstract(参考訳): 近年の研究では、深層学習モデルは、バックドアインスタンスが到着すると、モデルに埋め込まれたバックドアがトリガーされるバックドア攻撃の影響を受けやすいことが示されている。
本稿では,逆例に基づく新しいバックドア検出手法を提案する。
提案手法は,2つのシナリオで適用可能なトリガ(トレーニングステージにおけるトレーニングセットのサニタイズと推論ステージにおけるバックドアインスタンスの検出)を含むかを検出するために,意図的な逆向きの摂動を利用する。
具体的には、信頼できない画像が与えられた場合、その入力画像に逆摂動を意図的に付加し、摂動画像上のモデルの予測が不動画像と一致した場合、入力画像はバックドアのインスタンスと見なされる。
提案手法では,計算資源の不足と画像の視覚的品質の維持が要求される。
実験の結果, 提案手法により, バックドア攻撃の成功率は99.47%, 99.77%, 97.89%から0.37%, 0.24%, 0.09%に低下した。
さらに, 提案手法は, 付加摂動が非常に小さいため, 画像の視覚的品質を維持する。
さらに,異なる設定(トリガー透過性,トリガーサイズ,トリガーパターン)のアタックに対して,提案手法の誤受率は1.2%,0.3%,0.04%のfashion-mnist,cifar-10,gtsrbデータセットにおいて低く,異なるアタック設定でバックドアアタックに対して高い防御性能が得られることを示す。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Sample-Independent Federated Learning Backdoor Attack [3.6411410406927938]
GhostBは、サンプルを変更したり、ドロップアウトに依存したりしない、連邦学習バックドア攻撃に対する新しいアプローチである。
1から50個のゴーストニューロンを含む実験において、活性化時に100%の成功率を達成する。
本稿では,神経細胞の分散と層内深度が成功率にどのように影響するかを考察し,ニューロンの分散と位置の増大が有効性を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-08-25T14:38:13Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z) - SATBA: An Invisible Backdoor Attack Based On Spatial Attention [7.405457329942725]
バックドア攻撃には、隠れたトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。
既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている。
空間的注意とU-netモデルを用いてこれらの制限を克服するSATBAという新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2023-02-25T10:57:41Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。