論文の概要: Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift
- arxiv url: http://arxiv.org/abs/2312.00050v2
- Date: Sun, 4 Feb 2024 23:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:56:49.907962
- Title: Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift
- Title(参考訳): Elijah: 分散シフトによる拡散モデルによるバックドアの排除
- Authors: Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao,
Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu
Zhang
- Abstract要約: DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
- 参考スコア(独自算出の注目度): 86.92048184556936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DM) have become state-of-the-art generative models because
of their capability to generate high-quality images from noises without
adversarial training. However, they are vulnerable to backdoor attacks as
reported by recent studies. When a data input (e.g., some Gaussian noise) is
stamped with a trigger (e.g., a white patch), the backdoored model always
generates the target image (e.g., an improper photo). However, effective
defense strategies to mitigate backdoors from DMs are underexplored. To bridge
this gap, we propose the first backdoor detection and removal framework for
DMs. We evaluate our framework Elijah on hundreds of DMs of 3 types including
DDPM, NCSN and LDM, with 13 samplers against 3 existing backdoor attacks.
Extensive experiments show that our approach can have close to 100% detection
accuracy and reduce the backdoor effects to close to zero without significantly
sacrificing the model utility.
- Abstract(参考訳): 拡散モデル (DM) は, 敵対的訓練を伴わずに, ノイズから高品質な画像を生成する能力により, 最先端の生成モデルとなっている。
しかし、最近の研究で報告されたようにバックドア攻撃に弱い。
データ入力(例えばガウスノイズ)にトリガー(例えば白いパッチ)が押されると、バックドアモデルは常にターゲット画像(例えば不適切な写真)を生成する。
しかし、DMからバックドアを緩和するための効果的な防衛戦略は未定である。
このギャップを埋めるために,DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを対象とし, 既存の3種類のバックドア攻撃に対して13のサンプリングを行った。
広範な実験により, モデルの有用性を著しく損なうことなく, 検出精度が100%に近く, バックドア効果がゼロに近くなることを示した。
関連論文リスト
- From Trojan Horses to Castle Walls: Unveiling Bilateral Backdoor Effects
in Diffusion Models [20.10074289847428]
DMにおけるバックドア攻撃の発生はBadNetsと同じくらい単純か検討する。
BadNetsのようなバックドア攻撃は、DMが誤った画像を生成するのに有効である。
バックドアDMはバックドアトリガーの割合が増加する。
論文 参考訳(メタデータ) (2023-11-04T11:00:31Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - BDMMT: Backdoor Sample Detection for Language Models through Model
Mutation Testing [14.88575793895578]
本稿では,深層モデル変異検査に基づく防御手法を提案する。
バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。
次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (2023-01-25T05:24:46Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。