Fugu-MT 論文翻訳(概要): TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors

論文の概要: TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors

arxiv url: http://arxiv.org/abs/2409.05294v1
Date: Mon, 9 Sep 2024 03:02:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 16:00:52.346002
Title: TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors
Title（参考訳）: TERD: 拡散モデルをバックドアから保護するための統一フレームワーク
Authors: Yichuan Mo, Hui Huang, Mingjie Li, Ang Li, Yisen Wang,
Abstract要約: 拡散モデルは、その完全性を損なうバックドア攻撃に弱い。本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。 TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
参考スコア（独自算出の注目度）: 36.07978634674072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have achieved notable success in image generation, but they remain highly vulnerable to backdoor attacks, which compromise their integrity by producing specific undesirable outputs when presented with a pre-defined trigger. In this paper, we investigate how to protect diffusion models from this dangerous threat. Specifically, we propose TERD, a backdoor defense framework that builds unified modeling for current attacks, which enables us to derive an accessible reversed loss. A trigger reversion strategy is further employed: an initial approximation of the trigger through noise sampled from a prior distribution, followed by refinement through differential multi-step samplers. Additionally, with the reversed trigger, we propose backdoor detection from the noise space, introducing the first backdoor input detection approach for diffusion models and a novel model detection algorithm that calculates the KL divergence between reversed and benign distributions. Extensive evaluations demonstrate that TERD secures a 100% True Positive Rate (TPR) and True Negative Rate (TNR) across datasets of varying resolutions. TERD also demonstrates nice adaptability to other Stochastic Differential Equation (SDE)-based models. Our code is available at https://github.com/PKU-ML/TERD.
Abstract（参考訳）: 拡散モデルは画像生成において顕著な成功を収めてきたが、バックドア攻撃に対して非常に脆弱であり、事前に定義されたトリガーを提示すると、特定の望ましくない出力を生成することによって、その整合性を損なう。本稿では,この危険な脅威から拡散モデルを保護する方法について検討する。具体的には,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。さらに、先行分布からサンプリングしたノイズによるトリガーの初期近似と、差分多段サンプリング器による改善というトリガー回帰戦略が採用されている。さらに,逆トリガによるノイズ空間からのバックドア検出を提案し,拡散モデルに対する第1のバックドア入力検出アプローチと,逆分布と良分布のKL分散を計算する新しいモデル検出アルゴリズムを提案する。大規模な評価では、TERDはさまざまな解像度のデータセット間で100%正の正のレート(TPR)と正の負のレート(TNR)を保証している。 TERDは、他の確率微分方程式(SDE)ベースのモデルにも優れた適応性を示す。私たちのコードはhttps://github.com/PKU-ML/TERD.comで公開されています。

関連論文リスト

DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。 triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文参考訳（メタデータ） (2025-07-30T16:31:13Z)
BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
MixBridge: Heterogeneous Image-to-Image Backdoor Attack through Mixture of Schrödinger Bridges [90.49625209112223]
MixBridgeは任意の入力分布に対応する新しい拡散Schr"odinger Bridge (DSB) フレームワークである。画像ペアを直接トレーニングすることで,バックドアトリガをMixBridgeに注入可能であることを示す。本稿では,異なるブリッジを混在させるディバイド・アンド・マージ戦略を提案する。
論文参考訳（メタデータ） (2025-05-12T06:40:23Z)
Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T07:47:27Z)
A Dual-Purpose Framework for Backdoor Defense and Backdoor Amplification in Diffusion Models [5.957580737396457]
PureDiffusionは、バックドアディフェンスとバックドアアタック増幅という2つの対照的な役割を同時に果たす、デュアル目的のフレームワークである。防御のために,拡散モデルに埋め込まれたバックドアトリガを反転させる2つの新しい損失関数を導入する。攻撃増幅のために、バックドア拡散モデルに埋め込まれた元のトリガを補強するために、我々のトリガー反転アルゴリズムをどのように利用できるかを説明する。
論文参考訳（メタデータ） (2025-02-26T11:01:43Z)
How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文参考訳（メタデータ） (2024-10-14T22:25:06Z)
Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。 Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文参考訳（メタデータ） (2024-07-31T03:54:41Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文参考訳（メタデータ） (2024-07-05T01:53:21Z)
Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文参考訳（メタデータ） (2024-06-14T02:39:43Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文参考訳（メタデータ） (2024-02-05T05:46:31Z)
Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文参考訳（メタデータ） (2023-07-20T03:56:04Z)
How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文参考訳（メタデータ） (2022-12-11T03:44:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。