論文の概要: PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.13945v1
- Date: Fri, 20 Sep 2024 23:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:28:44.058656
- Title: PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models
- Title(参考訳): 純拡散: 生成拡散モデルにおけるバックドアによるバックドア対策
- Authors: Vu Tuan Truong, Long Bao Le,
- Abstract要約: 拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。
近年の研究では、バックドア攻撃に関する脆弱性が示されており、バックドアDMは、バックドアターゲットと呼ばれる指定結果を一貫して生成している。
DMに埋め込まれたバックドアトリガを反転させることで、バックドア攻撃を効率的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを導入する。
- 参考スコア(独自算出の注目度): 5.957580737396457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) are advanced deep learning models that achieved state-of-the-art capability on a wide range of generative tasks. However, recent studies have shown their vulnerability regarding backdoor attacks, in which backdoored DMs consistently generate a designated result (e.g., a harmful image) called backdoor target when the models' input contains a backdoor trigger. Although various backdoor techniques have been investigated to attack DMs, defense methods against these threats are still limited and underexplored, especially in inverting the backdoor trigger. In this paper, we introduce PureDiffusion, a novel backdoor defense framework that can efficiently detect backdoor attacks by inverting backdoor triggers embedded in DMs. Our extensive experiments on various trigger-target pairs show that PureDiffusion outperforms existing defense methods with a large gap in terms of fidelity (i.e., how much the inverted trigger resembles the original trigger) and backdoor success rate (i.e., the rate that the inverted trigger leads to the corresponding backdoor target). Notably, in certain cases, backdoor triggers inverted by PureDiffusion even achieve higher attack success rate than the original triggers.
- Abstract(参考訳): 拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。
しかし、最近の研究では、バックドア攻撃に関する脆弱性が示されており、モデル入力がバックドアトリガーを含む場合、バックドアDMは、バックドアターゲットと呼ばれる指定結果(例えば有害画像)を連続的に生成する。
DMを攻撃するために様々なバックドア技術が研究されているが、これらの脅威に対する防御方法はまだ限られており、特にバックドアトリガーの反転には不十分である。
本稿では,DMに埋め込まれたバックドアトリガを反転させることで,バックドア攻撃を効果的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを紹介する。
各種トリガ・ターゲット対に関する広範な実験により、PureDiffusionは、忠実度(逆トリガが元のトリガにどの程度似ているか)とバックドア成功率(逆トリガが対応するバックドア目標に導かれる率)において、既存の防御方法よりも優れた性能を示した。
特に、特定のケースでは、PureDiffusionによって反転されたバックドアトリガは、元のトリガよりも高い攻撃成功率を達成する。
関連論文リスト
- Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Dual Model Replacement:invisible Multi-target Backdoor Attack based on Federal Learning [21.600003684064706]
本稿では,フェデレート学習に基づくバックドア攻撃手法を設計する。
バックドアトリガの隠蔽を目的としたエンコーダデコーダ構造を備えたトロイジャンガンステガノグラフィーモデルが設計されている。
フェデレート学習に基づく二重モデル置換バックドア攻撃アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-22T07:44:02Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial
Examples to Triggered Samples [15.57457705138278]
本稿では,バックドアトリガを除去する新たなAFT手法を提案する。
AFTは、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガを効果的に消去することができる。
論文 参考訳(メタデータ) (2022-02-13T13:41:15Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。