Fugu-MT 論文翻訳(概要): Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models

論文の概要: Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models

arxiv url: http://arxiv.org/abs/2407.21316v1
Date: Wed, 31 Jul 2024 03:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 18:51:29.060819
Title: Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models
Title（参考訳）: Diff-Cleanse:拡散モデルにおけるバックドアアタックの同定と修正
Authors: Jiang Hao, Xiao Jin, Hu Xiaoguang, Chen Tianyou,
Abstract要約: 拡散モデル(DM)は、今日では最も先進的な生成モデルの一つである。近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。 textbfDiff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
参考スコア（独自算出の注目度）: 3.3623754851294256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models (DM) represent one of the most advanced generative models today, yet recent studies suggest that DMs are vulnerable to backdoor attacks. Backdoor attacks establish hidden associations between particular input patterns and model behaviors, compromising model integrity by triggering undesirable actions with manipulated input data. This vulnerability poses substantial risks, including reputational damage to model owners and the dissemination of harmful content. To mitigate the threat of backdoor attacks, there have been some investigations on backdoor detection and model repair. However, previous work fails to purify the backdoored DMs created by state-of-the-art attacks, rendering the field much underexplored. To bridge this gap, we introduce \textbf{Diff-Cleanse}, a novel two-stage backdoor defense framework specifically designed for DMs. The first stage employs a innovative trigger inversion technique to detect the backdoor and reconstruct the trigger, and the second stage utilizes a structural pruning method to eliminate the backdoor. We evaluate our framework on hundreds of DMs attacked by 3 existing backdoor attack methods. Extensive experiments demonstrate that Diff-Cleanse achieves nearly 100\% detection accuracy and effectively mitigates backdoor impacts, preserving the model's benign performance with minimal compromise. Our code is avaliable at https://github.com/shymuel/diff-cleanse.
Abstract（参考訳）: 拡散モデル(DM)は、今日では最も先進的な生成モデルの一つであるが、最近の研究では、DMはバックドア攻撃に弱いことが示唆されている。バックドアアタックは、特定の入力パターンとモデル動作の隠れた関連を確立し、操作された入力データで望ましくないアクションをトリガーすることでモデルの整合性を損なう。この脆弱性は、モデル所有者への評判のダメージや有害なコンテンツの拡散など、重大なリスクを引き起こす。バックドア攻撃の脅威を軽減するため、バックドア検出とモデル修復に関するいくつかの調査が行われた。しかし、これまでの作業では、最先端の攻撃によって生成されたバックドアのDMを浄化することができず、フィールドの探索は過小評価された。このギャップを埋めるために、DM用に特別に設計された2段階のバックドア防御フレームワークである「textbf{Diff-Cleanse}」を紹介した。第1段は、バックドアを検出してトリガーを再構築するために革新的なトリガー反転技術を採用し、第2段は、バックドアを除去するために構造的なプルーニング手法を使用している。既存の3つのバックドアアタック手法によって攻撃された数百のDMについて,本フレームワークの評価を行った。大規模な実験では、Diff-Cleanseが検出精度を100倍近く達成し、バックドアへの影響を効果的に軽減し、モデルの良質な性能を最小限の妥協で維持することを示した。私たちのコードはhttps://github.com/shymuel/diff-cleanse.comで有効です。

関連論文リスト

Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文参考訳（メタデータ） (2026-02-24T15:47:52Z)
Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文参考訳（メタデータ） (2025-11-29T06:20:00Z)
Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文参考訳（メタデータ） (2024-12-09T05:30:25Z)
Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。 DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文参考訳（メタデータ） (2024-11-10T07:01:53Z)
Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。 EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。 2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文参考訳（メタデータ） (2024-10-25T09:36:04Z)
PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models [5.957580737396457]
拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。近年の研究では、バックドア攻撃に関する脆弱性が示されており、バックドアDMは、バックドアターゲットと呼ばれる指定結果を一貫して生成している。 DMに埋め込まれたバックドアトリガを反転させることで、バックドア攻撃を効率的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを導入する。
論文参考訳（メタデータ） (2024-09-20T23:19:26Z)
T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文参考訳（メタデータ） (2024-07-05T01:53:21Z)
Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文参考訳（メタデータ） (2024-05-28T07:50:00Z)
TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文参考訳（メタデータ） (2024-05-27T03:10:57Z)
Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。 DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文参考訳（メタデータ） (2023-11-27T23:58:56Z)
Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文参考訳（メタデータ） (2023-07-20T03:56:04Z)
Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。 CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文参考訳（メタデータ） (2023-03-13T02:25:59Z)
Black-box Detection of Backdoor Attacks with Limited Information and Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文参考訳（メタデータ） (2021-03-24T12:06:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。