論文の概要: Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.17724v1
- Date: Sat, 22 Mar 2025 10:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:50.972477
- Title: Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model
- Title(参考訳): テキスト・画像拡散モデルにおける不可視的バックドア攻撃に向けて
- Authors: Jie Zhang, Zhongqi Wang, Shiguang Shan, Xilin Chen,
- Abstract要約: テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
Invisible Backdoor Attack (IBA) を提案する。
- 参考スコア(独自算出の注目度): 70.03122709795122
- License:
- Abstract: Backdoor attacks targeting text-to-image diffusion models have advanced rapidly, enabling attackers to implant malicious triggers into these models to manipulate their outputs. However, current backdoor samples often exhibit two key abnormalities compared to benign samples: 1) Semantic Consistency, where backdoor prompts tend to generate images with similar semantic content even with significant textual variations to the prompts; 2) Attention Consistency, where the trigger induces consistent structural responses in the cross-attention maps. These consistencies leave detectable traces for defenders, making backdoors easier to identify. To enhance the stealthiness of backdoor samples, we propose a novel Invisible Backdoor Attack (IBA) by explicitly mitigating these consistencies. Specifically, our approach leverages syntactic structures as backdoor triggers to amplify the sensitivity to textual variations, effectively breaking down the semantic consistency. Besides, a regularization method based on Kernel Maximum Mean Discrepancy (KMMD) is proposed to align the distribution of cross-attention responses between backdoor and benign samples, thereby disrupting attention consistency. Extensive experiments demonstrate that our IBA achieves a 97.5% attack success rate while exhibiting stronger resistance to defenses, with an average of over 98% backdoor samples bypassing three state-of-the-art detection mechanisms. The code is available at https://github.com/Robin-WZQ/IBA.
- Abstract(参考訳): テキストから画像への拡散モデルをターゲットにしたバックドアアタックが急速に進歩し、攻撃者は悪意のあるトリガーをこれらのモデルに埋め込んで出力を操作できるようになった。
しかし、現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を呈することが多い。
1) バックドアのプロンプトに有意なテキスト変化がある場合でも,類似のセマンティックな内容のイメージを生成する傾向のあるセマンティック・コンシステンシー
2)アテンション整合性(Attention Consistency)では、トリガーがクロスアテンションマップにおいて一貫した構造応答を誘導する。
これらの集合体は、検出可能なトレースをディフェンダーに残し、バックドアを識別しやすくする。
バックドアサンプルのステルス性を高めるために,これらの成分を明示的に緩和し,新規な視覚的バックドア攻撃(IBA)を提案する。
具体的には,構文構造をバックドアトリガとして利用し,テキストの変動に対する感度を増幅し,意味的一貫性を効果的に破壊する。
また,KMMD (Kernel Maximum Mean Discrepancy) に基づく正則化手法を提案する。
IBAの攻撃成功率は97.5%, 防御効果は強いが, バックドア検体の平均98%以上は, 最先端の3つの検出機構をバイパスしている。
コードはhttps://github.com/Robin-WZQ/IBAで公開されている。
関連論文リスト
- Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文 参考訳(メタデータ) (2024-12-11T19:54:14Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Stealthy Backdoor Attack via Confidence-driven Sampling [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。