論文の概要: A Dual-Purpose Framework for Backdoor Defense and Backdoor Amplification in Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.19047v1
- Date: Wed, 26 Feb 2025 11:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:33.975407
- Title: A Dual-Purpose Framework for Backdoor Defense and Backdoor Amplification in Diffusion Models
- Title(参考訳): 拡散モデルにおけるバックドアディフェンスとバックドアアンプリフィケーションのための二重目的フレームワーク
- Authors: Vu Tuan Truong Long, Bao Le,
- Abstract要約: PureDiffusionは、バックドアディフェンスとバックドアアタック増幅という2つの対照的な役割を同時に果たす、デュアル目的のフレームワークである。
防御のために,拡散モデルに埋め込まれたバックドアトリガを反転させる2つの新しい損失関数を導入する。
攻撃増幅のために、バックドア拡散モデルに埋め込まれた元のトリガを補強するために、我々のトリガー反転アルゴリズムをどのように利用できるかを説明する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Diffusion models have emerged as state-of-the-art generative frameworks, excelling in producing high-quality multi-modal samples. However, recent studies have revealed their vulnerability to backdoor attacks, where backdoored models generate specific, undesirable outputs called backdoor target (e.g., harmful images) when a pre-defined trigger is embedded to their inputs. In this paper, we propose PureDiffusion, a dual-purpose framework that simultaneously serves two contrasting roles: backdoor defense and backdoor attack amplification. For defense, we introduce two novel loss functions to invert backdoor triggers embedded in diffusion models. The first leverages trigger-induced distribution shifts across multiple timesteps of the diffusion process, while the second exploits the denoising consistency effect when a backdoor is activated. Once an accurate trigger inversion is achieved, we develop a backdoor detection method that analyzes both the inverted trigger and the generated backdoor targets to identify backdoor attacks. In terms of attack amplification with the role of an attacker, we describe how our trigger inversion algorithm can be used to reinforce the original trigger embedded in the backdoored diffusion model. This significantly boosts attack performance while reducing the required backdoor training time. Experimental results demonstrate that PureDiffusion achieves near-perfect detection accuracy, outperforming existing defenses by a large margin, particularly against complex trigger patterns. Additionally, in an attack scenario, our attack amplification approach elevates the attack success rate (ASR) of existing backdoor attacks to nearly 100\% while reducing training time by up to 20x.
- Abstract(参考訳): 拡散モデルは最先端の生成フレームワークとして登場し、高品質なマルチモーダルサンプルの生成に優れています。
しかし、最近の研究では、バックドアモデルが、事前に定義されたトリガーが入力に埋め込まれた場合に、バックドアターゲット(例えば有害画像)と呼ばれる特定の望ましくない出力を生成する、バックドア攻撃に対する脆弱性を明らかにしている。
本稿では,バックドア・ディフェンスとバックドア・アタック・アンプリフィケーションの2つの対照的な役割を兼ね備えた多目的フレームワークであるPureDiffusionを提案する。
防御のために,拡散モデルに埋め込まれたバックドアトリガを反転させる2つの新しい損失関数を導入する。
第1は拡散過程の複数のタイムステップにわたるトリガー誘起分布シフトを利用し、第2はバックドアが活性化されたときのデノナイジング一貫性効果を利用する。
正確なトリガーインバージョンが達成されれば、逆トリガーと生成されたバックドアターゲットの両方を分析して、バックドア攻撃を特定するバックドア検出手法を開発する。
攻撃者の役割による攻撃増幅に関して、バックドア拡散モデルに埋め込まれた元のトリガを補強するために、我々のトリガー反転アルゴリズムをどのように利用できるかを説明する。
これにより、必要なバックドアトレーニング時間を短縮しながら、攻撃性能が大幅に向上する。
実験により,PureDiffusionは検出精度がほぼ良好であることが確認された。
さらに,攻撃シナリオでは,既存のバックドア攻撃の攻撃成功率(ASR)を100倍近く向上させ,トレーニング時間を最大20倍に短縮する。
関連論文リスト
- A4O: All Trigger for One sample [10.78460062665304]
提案されたバックドアディフェンダーは、トリガーが統一された方法で現れるという仮定に依存することが多い。
本稿では,この単純な仮定が抜け穴を生じさせ,より洗練されたバックドア攻撃を回避できることを示す。
我々は,複数の種類のバックドアトリガーを組み込んだ新たなバックドア攻撃機構を設計し,ステルスネスと有効性に着目した。
論文 参考訳(メタデータ) (2025-01-13T10:38:58Z) - An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。
また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。
提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T02:03:27Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models [5.957580737396457]
拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。
近年の研究では、バックドア攻撃に関する脆弱性が示されており、バックドアDMは、バックドアターゲットと呼ばれる指定結果を一貫して生成している。
DMに埋め込まれたバックドアトリガを反転させることで、バックドア攻撃を効率的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを導入する。
論文 参考訳(メタデータ) (2024-09-20T23:19:26Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Dual Model Replacement:invisible Multi-target Backdoor Attack based on Federal Learning [21.600003684064706]
本稿では,フェデレート学習に基づくバックドア攻撃手法を設計する。
バックドアトリガの隠蔽を目的としたエンコーダデコーダ構造を備えたトロイジャンガンステガノグラフィーモデルが設計されている。
フェデレート学習に基づく二重モデル置換バックドア攻撃アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-22T07:44:02Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。