論文の概要: Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.21316v1
- Date: Wed, 31 Jul 2024 03:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:51:29.060819
- Title: Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models
- Title(参考訳): Diff-Cleanse:拡散モデルにおけるバックドアアタックの同定と修正
- Authors: Jiang Hao, Xiao Jin, Hu Xiaoguang, Chen Tianyou,
- Abstract要約: 拡散モデル(DM)は、今日では最も先進的な生成モデルの一つである。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
textbfDiff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
- 参考スコア(独自算出の注目度): 3.3623754851294256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DM) represent one of the most advanced generative models today, yet recent studies suggest that DMs are vulnerable to backdoor attacks. Backdoor attacks establish hidden associations between particular input patterns and model behaviors, compromising model integrity by triggering undesirable actions with manipulated input data. This vulnerability poses substantial risks, including reputational damage to model owners and the dissemination of harmful content. To mitigate the threat of backdoor attacks, there have been some investigations on backdoor detection and model repair. However, previous work fails to purify the backdoored DMs created by state-of-the-art attacks, rendering the field much underexplored. To bridge this gap, we introduce \textbf{Diff-Cleanse}, a novel two-stage backdoor defense framework specifically designed for DMs. The first stage employs a innovative trigger inversion technique to detect the backdoor and reconstruct the trigger, and the second stage utilizes a structural pruning method to eliminate the backdoor. We evaluate our framework on hundreds of DMs attacked by 3 existing backdoor attack methods. Extensive experiments demonstrate that Diff-Cleanse achieves nearly 100\% detection accuracy and effectively mitigates backdoor impacts, preserving the model's benign performance with minimal compromise. Our code is avaliable at https://github.com/shymuel/diff-cleanse.
- Abstract(参考訳): 拡散モデル(DM)は、今日では最も先進的な生成モデルの一つであるが、最近の研究では、DMはバックドア攻撃に弱いことが示唆されている。
バックドアアタックは、特定の入力パターンとモデル動作の隠れた関連を確立し、操作された入力データで望ましくないアクションをトリガーすることでモデルの整合性を損なう。
この脆弱性は、モデル所有者への評判のダメージや有害なコンテンツの拡散など、重大なリスクを引き起こす。
バックドア攻撃の脅威を軽減するため、バックドア検出とモデル修復に関するいくつかの調査が行われた。
しかし、これまでの作業では、最先端の攻撃によって生成されたバックドアのDMを浄化することができず、フィールドの探索は過小評価された。
このギャップを埋めるために、DM用に特別に設計された2段階のバックドア防御フレームワークである「textbf{Diff-Cleanse}」を紹介した。
第1段は、バックドアを検出してトリガーを再構築するために革新的なトリガー反転技術を採用し、第2段は、バックドアを除去するために構造的なプルーニング手法を使用している。
既存の3つのバックドアアタック手法によって攻撃された数百のDMについて,本フレームワークの評価を行った。
大規模な実験では、Diff-Cleanseが検出精度を100倍近く達成し、バックドアへの影響を効果的に軽減し、モデルの良質な性能を最小限の妥協で維持することを示した。
私たちのコードはhttps://github.com/shymuel/diff-cleanse.comで有効です。
関連論文リスト
- Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-05-28T07:50:00Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。