論文の概要: Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder
- arxiv url: http://arxiv.org/abs/2303.15564v2
- Date: Mon, 2 Oct 2023 15:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 19:58:12.398946
- Title: Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder
- Title(参考訳): mask and restore: masked autoencoderによるテスト時のブラインドバックドア防御
- Authors: Tao Sun, Lu Pang, Chao Chen, Haibin Ling
- Abstract要約: Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
- 参考スコア(独自算出の注目度): 57.739693628523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are vulnerable to backdoor attacks, where an adversary
maliciously manipulates the model behavior through overlaying images with
special triggers. Existing backdoor defense methods often require accessing a
few validation data and model parameters, which are impractical in many
real-world applications, e.g., when the model is provided as a cloud service.
In this paper, we address the practical task of blind backdoor defense at test
time, in particular for black-box models. The true label of every test image
needs to be recovered on the fly from a suspicious model regardless of image
benignity. We focus on test-time image purification methods that incapacitate
possible triggers while keeping semantic contents intact. Due to diverse
trigger patterns and sizes, the heuristic trigger search in image space can be
unscalable. We circumvent such barrier by leveraging the strong reconstruction
power of generative models, and propose a framework of Blind Defense with
Masked AutoEncoder (BDMAE). It detects possible triggers in the token space
using image structural similarity and label consistency between the test image
and MAE restorations. The detection results are then refined by considering
trigger topology. Finally, we fuse MAE restorations adaptively into a purified
image for making prediction. Our approach is blind to the model architectures,
trigger patterns and image benignity. Extensive experiments under different
backdoor settings validate its effectiveness and generalizability. Code is
available at https://github.com/tsun/BDMAE.
- Abstract(参考訳): ディープニューラルネットワークはバックドア攻撃に対して脆弱であり、敵は特別なトリガーで画像をオーバーレイすることでモデルの振る舞いを悪質に操作する。
既存のバックドア防御手法では、モデルがクラウドサービスとして提供される場合など、多くの現実のアプリケーションでは実用的でないいくつかの検証データとモデルパラメータにアクセスする必要がある。
本稿では,特にブラックボックスモデルにおいて,テスト時のブラインドバックドア防御の実践的課題について述べる。
全てのテスト画像の真のラベルは、画像の良否に関わらず、不審なモデルから即時に回収する必要がある。
意味的内容を保ちながらトリガーを無効にする,テスト時の画像浄化手法に着目する。
多様なトリガーパターンとサイズのため、画像空間におけるヒューリスティックトリガー探索はスケールできない。
我々は、生成モデルの強力な再構築力を活用して、そのような障壁を回避するとともに、Blind Defense with Masked AutoEncoder (BDMAE) の枠組みを提案する。
テスト画像とMAE復元の間の画像構造的類似性とラベルの整合性を用いて、トークン空間で可能なトリガを検出する。
検出結果はトリガートポロジーを考慮して洗練される。
最後に,MAE復元を適応的に精製した画像に融合して予測を行う。
私たちのアプローチは、モデルアーキテクチャ、トリガーパターン、イメージの良性に盲目です。
異なるバックドア設定下での広範囲な実験は、その有効性と一般化性を検証する。
コードはhttps://github.com/tsun/BDMAEで入手できる。
関連論文リスト
- Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection
on Open-Set Classification Tasks [51.78558228584093]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
両モデルがバックドアされている場合でも,バックドアが検出可能であることを示す。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Protect Federated Learning Against Backdoor Attacks via Data-Free
Trigger Generation [25.072791779134]
Federated Learning (FL)は、大規模クライアントが生データを共有せずに、協力的にモデルをトレーニングすることを可能にする。
信頼できないクライアントのデータ監査が欠如しているため、FLは特にバックドアアタックに対する攻撃に対して脆弱である。
バックドア攻撃の2つの特徴に基づく,データフリーなトリガジェネレーションに基づく防衛手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T10:16:12Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z) - Distilling Cognitive Backdoor Patterns within an Image [35.1754797302114]
本稿では, 画像中のバックドアパターンを抽出し, 検出する簡単な方法を提案する: emphCognitive Distillation (CD) について述べる。
抽出されたパターンは、クリーン/バックドア画像上のモデルの認知メカニズムを理解するのに役立つ。
我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。
論文 参考訳(メタデータ) (2023-01-26T02:38:37Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - FIBA: Frequency-Injection based Backdoor Attack in Medical Image
Analysis [82.2511780233828]
本稿では,様々な医療画像解析タスクにおいて,攻撃を行うことのできる新しい周波数注入型バックドアアタック法(FIBA)を提案する。
具体的には、FIBAは、両方の画像のスペクトル振幅を線形に組み合わせることで、トリガー画像の低周波情報を有毒画像に注入できる周波数領域のトリガー関数を利用する。
論文 参考訳(メタデータ) (2021-12-02T11:52:17Z) - Backdoor Attack on Hash-based Image Retrieval via Clean-label Data
Poisoning [54.15013757920703]
混乱性摂動誘発性バックドアアタック(CIBA)を提案する。
トレーニングデータに、正しいラベルで少量の有毒画像を注入する。
提案したCIBAの有効性を検証するための広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-18T07:56:59Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。