論文の概要: Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2508.18235v1
- Date: Wed, 20 Aug 2025 00:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.890361
- Title: Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation
- Title(参考訳): バックドアのシーリング:知識蒸留を用いた拡散モデルにおける非学習用テキストトリガー
- Authors: Ashwath Vaithinathan Aravindan, Abha Jha, Matthew Salaway, Atharva Sandeep Bhide, Duygu Nur Yaldiz,
- Abstract要約: 学習データに知覚不可能なテキストトリガーを注入することで、モデルが操作された出力を生成する。
本稿では, 対人的テキストトリガと有毒なアウトプットの関連を除去するために, クロスアテンション誘導による自己知識蒸留(SKD-CAG)を提案する。
本手法は,画素バックドアの除去精度を100%,スタイルベース攻撃の93%で達成し,ロバスト性や画像の忠実さを犠牲にしない。
- 参考スコア(独自算出の注目度): 3.54387829918311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have revolutionized generative AI, but their vulnerability to backdoor attacks poses significant security risks. Adversaries can inject imperceptible textual triggers into training data, causing models to generate manipulated outputs. Although text-based backdoor defenses in classification models are well-explored, generative models lack effective mitigation techniques against. We address this by selectively erasing the model's learned associations between adversarial text triggers and poisoned outputs, while preserving overall generation quality. Our approach, Self-Knowledge Distillation with Cross-Attention Guidance (SKD-CAG), uses knowledge distillation to guide the model in correcting responses to poisoned prompts while maintaining image quality by exploiting the fact that the backdoored model still produces clean outputs in the absence of triggers. Using the cross-attention mechanism, SKD-CAG neutralizes backdoor influences at the attention level, ensuring the targeted removal of adversarial effects. Extensive experiments show that our method outperforms existing approaches, achieving removal accuracy 100\% for pixel backdoors and 93\% for style-based attacks, without sacrificing robustness or image fidelity. Our findings highlight targeted unlearning as a promising defense to secure generative models. Code and model weights can be found at https://github.com/Mystic-Slice/Sealing-The-Backdoor .
- Abstract(参考訳): テキストから画像への拡散モデルは、生成AIに革命をもたらしたが、バックドア攻撃に対する脆弱性は、重大なセキュリティリスクをもたらす。
学習データに知覚不可能なテキストトリガーを注入することで、モデルが操作された出力を生成する。
分類モデルにおけるテキストベースのバックドア防御はよく研究されているが、生成モデルは効果的な緩和手法を欠いている。
モデルが学習したテキストトリガと有毒なアウトプットの関連性を選択的に消去し、全体の生成品質を保ちながら、この問題に対処する。
我々のアプローチであるSKD-CAG(Self-Knowledge Distillation with Cross-Attention Guidance)は、知識蒸留を用いて、引き金のない状態でも、バックドアモデルがクリーンな出力を生み出すという事実を利用して、画像品質を維持しながら、有害なプロンプトに対する応答を補正するモデルを誘導する。
クロスアテンション機構を用いて、SKD-CAGは注意レベルでバックドアの影響を中和し、敵の効果を標的に除去する。
広汎な実験により,本手法は既存の手法よりも優れており,画素バックドアの除去精度100\%,スタイルベース攻撃93\%を達成でき,ロバスト性や画像の忠実さを犠牲にすることなく達成できることがわかった。
本研究は, 学習対象の未学習を, 生成モデルをセキュアにするための有望な防御手段として強調した。
コードとモデルの重み付けはhttps://github.com/Mystic-Slice/Sealing-The-Backdoor にある。
関連論文リスト
- Backdoor Defense in Diffusion Models via Spatial Attention Unlearning [0.0]
テキストと画像の拡散モデルは、バックドア攻撃に対してますます脆弱である。
本研究では,拡散モデルにおけるバックドア攻撃を緩和する新しい手法である空間注意アンラーニング(SAU)を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:00:19Z) - Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文 参考訳(メタデータ) (2024-12-11T19:54:14Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。