論文の概要: Black-box Backdoor Defense via Zero-shot Image Purification
- arxiv url: http://arxiv.org/abs/2303.12175v1
- Date: Tue, 21 Mar 2023 20:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 16:16:36.084648
- Title: Black-box Backdoor Defense via Zero-shot Image Purification
- Title(参考訳): ゼロショット画像浄化によるブラックボックスバックドア防御
- Authors: Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Ninghao Liu
- Abstract要約: バックドア攻撃は、トレーニングセットに有毒なデータを注入し、モデル推論中に有毒なサンプルを誤分類する。
本稿では,ゼロショット画像の浄化により,様々な攻撃を効果的に防御できる新しいバックドア防御フレームワークを提案する。
提案手法はブラックボックスモデルに適用可能であり, 汚染されたモデルの内部情報や, 汚染されたサンプルの事前知識は不要である。
- 参考スコア(独自算出の注目度): 26.7859247352282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor attacks inject poisoned data into the training set, resulting in
misclassification of the poisoned samples during model inference. Defending
against such attacks is challenging, especially in real-world black-box
settings where only model predictions are available. In this paper, we propose
a novel backdoor defense framework that can effectively defend against various
attacks through zero-shot image purification (ZIP). Our proposed framework can
be applied to black-box models without requiring any internal information about
the poisoned model or any prior knowledge of the clean/poisoned samples. Our
defense framework involves a two-step process. First, we apply a linear
transformation on the poisoned image to destroy the trigger pattern. Then, we
use a pre-trained diffusion model to recover the missing semantic information
removed by the transformation. In particular, we design a new reverse process
using the transformed image to guide the generation of high-fidelity purified
images, which can be applied in zero-shot settings. We evaluate our ZIP
backdoor defense framework on multiple datasets with different kinds of
attacks. Experimental results demonstrate the superiority of our ZIP framework
compared to state-of-the-art backdoor defense baselines. We believe that our
results will provide valuable insights for future defense methods for black-box
models.
- Abstract(参考訳): バックドア攻撃は、トレーニングセットに有毒なデータを注入し、モデル推論中に有毒なサンプルを誤分類する。
このような攻撃に対する防御は、特にモデル予測しかできない現実世界のブラックボックス設定では難しい。
本稿では,ゼロショット画像浄化(ZIP)により,様々な攻撃を効果的に防御できる新しいバックドア防御フレームワークを提案する。
提案手法はブラックボックスモデルに適用でき, 汚染されたモデルの内部情報や, 汚染されたサンプルの事前知識は不要である。
我々の防衛の枠組みは2段階のプロセスを伴う。
まず, トリガパターンを破壊するために, 有毒画像に線形変換を適用する。
次に,事前学習した拡散モデルを用いて,変換によって削除された意味情報を復元する。
特に,ゼロショット設定で適用可能な高忠実度画像生成のガイドとして,変換画像を用いた新しいリバースプロセスを設計する。
攻撃の種類が異なる複数のデータセットに対するZIPバックドア防御フレームワークの評価を行った。
実験により, 最先端のバックドア防御ベースラインに比べてZIPフレームワークが優れていることが示された。
我々は,ブラックボックスモデルに対する今後の防衛手法に関する貴重な知見を提供すると信じている。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - Physical Invisible Backdoor Based on Camera Imaging [32.30547033643063]
現在のバックドア攻撃では、クリーンな画像のピクセルを変更する必要がある。
本稿では,自然画像の画素の変化を伴わずに,カメラ画像に基づく新しい物理見えないバックドアを提案する。
論文 参考訳(メタデータ) (2023-09-14T04:58:06Z) - Backdoor Attack on Hash-based Image Retrieval via Clean-label Data
Poisoning [54.15013757920703]
混乱性摂動誘発性バックドアアタック(CIBA)を提案する。
トレーニングデータに、正しいラベルで少量の有毒画像を注入する。
提案したCIBAの有効性を検証するための広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-18T07:56:59Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Clean-Label Backdoor Attacks on Video Recognition Models [87.46539956587908]
画像バックドア攻撃は、ビデオでははるかに効果が低いことを示す。
本稿では,映像認識モデルに対するバックドアトリガとして,ユニバーサル・ディバイサル・トリガーを提案する。
提案したバックドア攻撃は,最先端のバックドア防御・検出手法に耐性がある。
論文 参考訳(メタデータ) (2020-03-06T04:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。