論文の概要: Black-box Backdoor Defense via Zero-shot Image Purification
- arxiv url: http://arxiv.org/abs/2303.12175v2
- Date: Fri, 27 Oct 2023 21:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:06:31.951968
- Title: Black-box Backdoor Defense via Zero-shot Image Purification
- Title(参考訳): ゼロショット画像浄化によるブラックボックスバックドア防御
- Authors: Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Jin Sun, Ninghao
Liu
- Abstract要約: バックドア攻撃は、トレーニングデータに有毒なサンプルを注入し、モデル配備中に有毒な入力を誤分類する。
本稿では,Zero-shot Image Purificationによるバックドア攻撃に対する防御機構を提案する。
我々のフレームワークは、モデルに関する内部情報や、クリーン/ポジショニングされたサンプルの事前知識を必要とせずに、有毒なモデルに適用することができる。
- 参考スコア(独自算出の注目度): 44.397471722274666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor attacks inject poisoned samples into the training data, resulting in
the misclassification of the poisoned input during a model's deployment.
Defending against such attacks is challenging, especially for real-world
black-box models where only query access is permitted. In this paper, we
propose a novel defense framework against backdoor attacks through Zero-shot
Image Purification (ZIP). Our framework can be applied to poisoned models
without requiring internal information about the model or any prior knowledge
of the clean/poisoned samples. Our defense framework involves two steps. First,
we apply a linear transformation (e.g., blurring) on the poisoned image to
destroy the backdoor pattern. Then, we use a pre-trained diffusion model to
recover the missing semantic information removed by the transformation. In
particular, we design a new reverse process by using the transformed image to
guide the generation of high-fidelity purified images, which works in zero-shot
settings. We evaluate our ZIP framework on multiple datasets with different
types of attacks. Experimental results demonstrate the superiority of our ZIP
framework compared to state-of-the-art backdoor defense baselines. We believe
that our results will provide valuable insights for future defense methods for
black-box models. Our code is available at https://github.com/sycny/ZIP.
- Abstract(参考訳): バックドア攻撃は、トレーニングデータに有毒なサンプルを注入し、モデルのデプロイ中に有毒な入力を誤分類する。
このような攻撃に対する防御は、特にクエリアクセスのみを許可する現実世界のブラックボックスモデルでは難しい。
本稿では,ZIP(Zero-shot Image Purification)によるバックドア攻撃に対する防御機構を提案する。
我々のフレームワークは、汚染されたモデルに対して、モデルに関する内部情報やクリーン/汚染されたサンプルに関する事前知識を必要とせずに適用できる。
防御の枠組みには2つのステップがある。
まず、毒性画像に線形変換(例えば、ぼやけ)を適用して、バックドアパターンを破壊する。
次に,事前学習した拡散モデルを用いて,変換によって削除された意味情報を復元する。
特に,ゼロショット設定で機能する高忠実度精製画像の生成を,変換画像を用いてガイドすることにより,新たなリバースプロセスをデザインする。
攻撃の種類が異なる複数のデータセット上でZIPフレームワークを評価する。
実験により, 最先端のバックドア防御ベースラインに比べてZIPフレームワークが優れていることが示された。
我々は,ブラックボックスモデルに対する今後の防衛手法に関する貴重な知見を提供すると信じている。
私たちのコードはhttps://github.com/sycny/zipで利用可能です。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - Physical Invisible Backdoor Based on Camera Imaging [32.30547033643063]
現在のバックドア攻撃では、クリーンな画像のピクセルを変更する必要がある。
本稿では,自然画像の画素の変化を伴わずに,カメラ画像に基づく新しい物理見えないバックドアを提案する。
論文 参考訳(メタデータ) (2023-09-14T04:58:06Z) - Backdoor Attack on Hash-based Image Retrieval via Clean-label Data
Poisoning [54.15013757920703]
混乱性摂動誘発性バックドアアタック(CIBA)を提案する。
トレーニングデータに、正しいラベルで少量の有毒画像を注入する。
提案したCIBAの有効性を検証するための広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-18T07:56:59Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Clean-Label Backdoor Attacks on Video Recognition Models [87.46539956587908]
画像バックドア攻撃は、ビデオでははるかに効果が低いことを示す。
本稿では,映像認識モデルに対するバックドアトリガとして,ユニバーサル・ディバイサル・トリガーを提案する。
提案したバックドア攻撃は,最先端のバックドア防御・検出手法に耐性がある。
論文 参考訳(メタデータ) (2020-03-06T04:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。