論文の概要: Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2303.15564v3
- Date: Tue, 19 Aug 2025 06:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.260358
- Title: Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder
- Title(参考訳): Mask and Restore: Masked Autoencoderを使ったテスト時間におけるブラインドバックドアディフェンス
- Authors: Tao Sun, Lu Pang, Weimin Lyu, Chao Chen, Haibin Ling,
- Abstract要約: 既存のバックドア防御手法では、いくつかのバリデーションデータとモデルパラメータにアクセスする必要があることが多い。
Masked AutoEncoder (BDMAE) を用いたブラインドバックドアディフェンスの提案
BDMAEは、画像の構造的類似性と、テスト画像とMAE復元の間のラベルの整合性を用いて、可能な局所的なトリガを検出する。
- 参考スコア(独自算出の注目度): 50.1394620328318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are vulnerable to backdoor attacks, where an adversary manipulates the model behavior through overlaying images with special triggers. Existing backdoor defense methods often require accessing a few validation data and model parameters, which is impractical in many real-world applications, e.g., when the model is provided as a cloud service. In this paper, we address the practical task of blind backdoor defense at test time, in particular for local attacks and black-box models. The true label of every test image needs to be recovered on the fly from a suspicious model regardless of image benignity. We consider test-time image purification that incapacitates local triggers while keeping semantic contents intact. Due to diverse trigger patterns and sizes, the heuristic trigger search can be unscalable. We circumvent such barrier by leveraging the strong reconstruction power of generative models, and propose Blind Defense with Masked AutoEncoder (BDMAE). BDMAE detects possible local triggers using image structural similarity and label consistency between the test image and MAE restorations. The detection results are then refined by considering trigger topology. Finally, we fuse MAE restorations adaptively into a purified image for making prediction. Extensive experiments under different backdoor settings validate its effectiveness and generalizability.
- Abstract(参考訳): ディープニューラルネットワークはバックドア攻撃に対して脆弱であり、敵が特別なトリガーで画像をオーバーレイすることでモデル動作を操作する。
既存のバックドア防御手法では、いくつかのバリデーションデータとモデルパラメータにアクセスする必要があることが多い。
本稿では,テスト時のブラインドバックドア防御の実践的課題,特にローカルアタックやブラックボックスモデルについて述べる。
全てのテスト画像の真のラベルは、画像の良否に関わらず、不審なモデルから即時に回収する必要がある。
セマンティックな内容を維持しながら局所的なトリガーを無力化するテストタイム画像浄化について検討する。
多様なトリガーパターンとサイズのため、ヒューリスティックトリガーサーチはスケールできない。
生成モデルの強い復元力を活用してこのような障壁を回避するとともに,マスケッドオートエンコーダ(BDMAE)を用いたブラインドディフェンスを提案する。
BDMAEは、画像の構造的類似性と、テスト画像とMAE復元の間のラベルの整合性を用いて、可能な局所的なトリガを検出する。
そして、トリガートポロジを考慮し、検出結果を精査する。
最後に,MAE復元を適応的に精製した画像に融合して予測を行う。
異なるバックドア環境下での大規模な実験は、その有効性と一般化可能性を検証する。
関連論文リスト
- Gungnir: Exploiting Stylistic Features in Images for Backdoor Attacks on Diffusion Models [8.672029086609884]
拡散モデル(DM)はバックドア攻撃に対して脆弱である。
Gungnirは、入力画像内のスタイルトリガを通じて、攻撃者がDMのバックドアをアクティベートできる新しい方法である。
本手法は,クリーン画像と知覚的に区別できないトリガー埋め込み画像を生成する。
論文 参考訳(メタデータ) (2025-02-28T02:08:26Z) - BadScan: An Architectural Backdoor Attack on Visual State Space Models [2.2499166814992435]
最近導入されたVisual State Space Model (VMamba) は視覚変換器 (ViT) と比較して非常に優れた性能を示している。
一般的なアプローチの1つは、トレーニングデータにトリガーを組み込んでモデルを再トレーニングすることで、データサンプルをターゲットクラスに誤分類する。
我々は、VMambaモデルを欺くように設計されたBadScanと呼ばれる新しいアーキテクチャバックドアアタックを導入する。
論文 参考訳(メタデータ) (2024-11-26T10:13:09Z) - Evolutionary Trigger Detection and Lightweight Model Repair Based Backdoor Defense [10.310546695762467]
ディープニューラルネットワーク(DNN)は、自律運転や顔認識など、多くの分野で広く利用されている。
DNNモデルのバックドアは、トリガーによる有毒な入力によってアクティベートされ、誤った予測につながる。
進化的トリガ検出と軽量モデル修復に基づく効率的なバックドア防御を提案する。
論文 参考訳(メタデータ) (2024-07-07T14:50:59Z) - Stealthy Targeted Backdoor Attacks against Image Captioning [16.409633596670368]
本稿では,画像キャプションモデルに対するバックドア攻撃を標的とした新たな手法を提案する。
本手法は,物体検出に普遍摂動技術を活用することで,まず特別なトリガを学習する。
我々のアプローチは、モデルクリーンパフォーマンスに無視できる影響を与えながら、高い攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2024-06-09T18:11:06Z) - Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Distilling Cognitive Backdoor Patterns within an Image [35.1754797302114]
本稿では, 画像中のバックドアパターンを抽出し, 検出する簡単な方法を提案する: emphCognitive Distillation (CD) について述べる。
抽出されたパターンは、クリーン/バックドア画像上のモデルの認知メカニズムを理解するのに役立つ。
我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。
論文 参考訳(メタデータ) (2023-01-26T02:38:37Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - FIBA: Frequency-Injection based Backdoor Attack in Medical Image
Analysis [82.2511780233828]
本稿では,様々な医療画像解析タスクにおいて,攻撃を行うことのできる新しい周波数注入型バックドアアタック法(FIBA)を提案する。
具体的には、FIBAは、両方の画像のスペクトル振幅を線形に組み合わせることで、トリガー画像の低周波情報を有毒画像に注入できる周波数領域のトリガー関数を利用する。
論文 参考訳(メタデータ) (2021-12-02T11:52:17Z) - Backdoor Attack on Hash-based Image Retrieval via Clean-label Data
Poisoning [54.15013757920703]
混乱性摂動誘発性バックドアアタック(CIBA)を提案する。
トレーニングデータに、正しいラベルで少量の有毒画像を注入する。
提案したCIBAの有効性を検証するための広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-18T07:56:59Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。