論文の概要: TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors
- arxiv url: http://arxiv.org/abs/2409.05294v1
- Date: Mon, 9 Sep 2024 03:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:00:52.346002
- Title: TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors
- Title(参考訳): TERD: 拡散モデルをバックドアから保護するための統一フレームワーク
- Authors: Yichuan Mo, Hui Huang, Mingjie Li, Ang Li, Yisen Wang,
- Abstract要約: 拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
- 参考スコア(独自算出の注目度): 36.07978634674072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved notable success in image generation, but they remain highly vulnerable to backdoor attacks, which compromise their integrity by producing specific undesirable outputs when presented with a pre-defined trigger. In this paper, we investigate how to protect diffusion models from this dangerous threat. Specifically, we propose TERD, a backdoor defense framework that builds unified modeling for current attacks, which enables us to derive an accessible reversed loss. A trigger reversion strategy is further employed: an initial approximation of the trigger through noise sampled from a prior distribution, followed by refinement through differential multi-step samplers. Additionally, with the reversed trigger, we propose backdoor detection from the noise space, introducing the first backdoor input detection approach for diffusion models and a novel model detection algorithm that calculates the KL divergence between reversed and benign distributions. Extensive evaluations demonstrate that TERD secures a 100% True Positive Rate (TPR) and True Negative Rate (TNR) across datasets of varying resolutions. TERD also demonstrates nice adaptability to other Stochastic Differential Equation (SDE)-based models. Our code is available at https://github.com/PKU-ML/TERD.
- Abstract(参考訳): 拡散モデルは画像生成において顕著な成功を収めてきたが、バックドア攻撃に対して非常に脆弱であり、事前に定義されたトリガーを提示すると、特定の望ましくない出力を生成することによって、その整合性を損なう。
本稿では,この危険な脅威から拡散モデルを保護する方法について検討する。
具体的には,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
さらに、先行分布からサンプリングしたノイズによるトリガーの初期近似と、差分多段サンプリング器による改善というトリガー回帰戦略が採用されている。
さらに,逆トリガによるノイズ空間からのバックドア検出を提案し,拡散モデルに対する第1のバックドア入力検出アプローチと,逆分布と良分布のKL分散を計算する新しいモデル検出アルゴリズムを提案する。
大規模な評価では、TERDはさまざまな解像度のデータセット間で100%正の正のレート(TPR)と正の負のレート(TNR)を保証している。
TERDは、他の確率微分方程式(SDE)ベースのモデルにも優れた適応性を示す。
私たちのコードはhttps://github.com/PKU-ML/TERD.comで公開されています。
関連論文リスト
- How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。
我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文 参考訳(メタデータ) (2024-10-14T22:25:06Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文 参考訳(メタデータ) (2024-02-05T05:46:31Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。