論文の概要: Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift
- arxiv url: http://arxiv.org/abs/2312.00050v2
- Date: Sun, 4 Feb 2024 23:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:56:49.907962
- Title: Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift
- Title(参考訳): Elijah: 分散シフトによる拡散モデルによるバックドアの排除
- Authors: Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao,
Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu
Zhang
- Abstract要約: DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
- 参考スコア(独自算出の注目度): 86.92048184556936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DM) have become state-of-the-art generative models because
of their capability to generate high-quality images from noises without
adversarial training. However, they are vulnerable to backdoor attacks as
reported by recent studies. When a data input (e.g., some Gaussian noise) is
stamped with a trigger (e.g., a white patch), the backdoored model always
generates the target image (e.g., an improper photo). However, effective
defense strategies to mitigate backdoors from DMs are underexplored. To bridge
this gap, we propose the first backdoor detection and removal framework for
DMs. We evaluate our framework Elijah on hundreds of DMs of 3 types including
DDPM, NCSN and LDM, with 13 samplers against 3 existing backdoor attacks.
Extensive experiments show that our approach can have close to 100% detection
accuracy and reduce the backdoor effects to close to zero without significantly
sacrificing the model utility.
- Abstract(参考訳): 拡散モデル (DM) は, 敵対的訓練を伴わずに, ノイズから高品質な画像を生成する能力により, 最先端の生成モデルとなっている。
しかし、最近の研究で報告されたようにバックドア攻撃に弱い。
データ入力(例えばガウスノイズ)にトリガー(例えば白いパッチ)が押されると、バックドアモデルは常にターゲット画像(例えば不適切な写真)を生成する。
しかし、DMからバックドアを緩和するための効果的な防衛戦略は未定である。
このギャップを埋めるために,DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを対象とし, 既存の3種類のバックドア攻撃に対して13のサンプリングを行った。
広範な実験により, モデルの有用性を著しく損なうことなく, 検出精度が100%に近く, バックドア効果がゼロに近くなることを示した。
関連論文リスト
- UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models [23.123721322735445]
拡散モデル(DM)はバックドア攻撃に対して脆弱である。
DMに対する汎用的非受容バックドアアタックであるUIBDiffusionを提案する。
論文 参考訳(メタデータ) (2024-12-16T04:47:55Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models [5.957580737396457]
拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。
近年の研究では、バックドア攻撃に関する脆弱性が示されており、バックドアDMは、バックドアターゲットと呼ばれる指定結果を一貫して生成している。
DMに埋め込まれたバックドアトリガを反転させることで、バックドア攻撃を効率的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを導入する。
論文 参考訳(メタデータ) (2024-09-20T23:19:26Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - BDMMT: Backdoor Sample Detection for Language Models through Model
Mutation Testing [14.88575793895578]
本稿では,深層モデル変異検査に基づく防御手法を提案する。
バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。
次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (2023-01-25T05:24:46Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。