論文の概要: Towards Unified Robustness Against Both Backdoor and Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2405.17929v1
- Date: Tue, 28 May 2024 07:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:47:39.157601
- Title: Towards Unified Robustness Against Both Backdoor and Adversarial Attacks
- Title(参考訳): バックドアと敵の攻撃に対する統一的ロバストネスを目指して
- Authors: Zhenxing Niu, Yuyao Sun, Qiguang Miao, Rong Jin, Gang Hua,
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
- 参考スコア(独自算出の注目度): 31.846262387360767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) are known to be vulnerable to both backdoor and adversarial attacks. In the literature, these two types of attacks are commonly treated as distinct robustness problems and solved separately, since they belong to training-time and inference-time attacks respectively. However, this paper revealed that there is an intriguing connection between them: (1) planting a backdoor into a model will significantly affect the model's adversarial examples; (2) for an infected model, its adversarial examples have similar features as the triggered images. Based on these observations, a novel Progressive Unified Defense (PUD) algorithm is proposed to defend against backdoor and adversarial attacks simultaneously. Specifically, our PUD has a progressive model purification scheme to jointly erase backdoors and enhance the model's adversarial robustness. At the early stage, the adversarial examples of infected models are utilized to erase backdoors. With the backdoor gradually erased, our model purification can naturally turn into a stage to boost the model's robustness against adversarial attacks. Besides, our PUD algorithm can effectively identify poisoned images, which allows the initial extra dataset not to be completely clean. Extensive experimental results show that, our discovered connection between backdoor and adversarial attacks is ubiquitous, no matter what type of backdoor attack. The proposed PUD outperforms the state-of-the-art backdoor defense, including the model repairing-based and data filtering-based methods. Besides, it also has the ability to compete with the most advanced adversarial defense methods.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
文献では、これらの2種類の攻撃は、それぞれ訓練時間と推論時間に属するため、それぞれ異なる堅牢性問題として扱われ、別々に解決される。
しかし,本論文では,(1)モデルにバックドアを植え込むと,モデルの敵の例に大きく影響し,(2)感染モデルの場合,その敵の例はトリガー画像と類似した特徴を持つことを明らかにした。
これらの観測に基づいて、バックドアと敵の攻撃を同時に防御するために、新しいプログレッシブ統一防衛(PUD)アルゴリズムが提案されている。
特に,我々のPUDは,バックドアを共同で消去し,モデルの対向的堅牢性を高めるプログレッシブモデル浄化スキームを備えている。
初期の段階では、感染したモデルの敵の例を用いてバックドアを消去する。
バックドアが徐々に消されていくと、我々のモデル浄化は自然にステージに変わり、敵攻撃に対するモデルの堅牢性を高めることができる。
さらに、PUDアルゴリズムは、有毒な画像を効果的に識別できるので、最初の余分なデータセットが完全にクリーンにならないようにする。
その結果, バックドア攻撃と敵攻撃の関連性は, どのようなバックドア攻撃であっても, ユビキタスであることがわかった。
提案したPUDは、モデル修復法やデータフィルタリング法など、最先端のバックドアディフェンスよりも優れている。
さらに、最も先進的な敵防衛手法と競合する能力も備えている。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Attack against NLP models with Robustness-Aware Perturbation
defense [0.0]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
本研究は, 有害試料とクリーン試料との堅牢性ギャップを, 敵の訓練工程を用いて制御することにより, この防御を破るものである。
論文 参考訳(メタデータ) (2022-04-08T10:08:07Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial
Examples to Triggered Samples [15.57457705138278]
本稿では,バックドアトリガを除去する新たなAFT手法を提案する。
AFTは、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガを効果的に消去することができる。
論文 参考訳(メタデータ) (2022-02-13T13:41:15Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Can We Mitigate Backdoor Attack Using Adversarial Detection Methods? [26.8404758315088]
我々は,Deep Neural Networksの敵対的事例とバックドア事例の関連性について包括的に研究する。
我々の知見は, 逆行例と逆行例の両方が推論過程中に異常を有するという観察に基づいている。
バックドアの事例を検出するために,既存の4つの対角防御法を改訂した。
論文 参考訳(メタデータ) (2020-06-26T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。