論文の概要: Semantic-level Backdoor Attack against Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.04898v1
- Date: Tue, 03 Feb 2026 13:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.518529
- Title: Semantic-level Backdoor Attack against Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルに対する意味レベルのバックドア攻撃
- Authors: Tianxin Chen, Wenbo Jiang, Hongqiao Chen, Zhirun Zheng, Cheng Huang,
- Abstract要約: 本稿では,セマンティックレベルのバックドア攻撃(Semantic-level Backdoor Attack, SemBD)を提案する。
SemBDは、最先端の入力レベルの防御に対して強い堅牢性を保ちながら、100%の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 3.8542429081202947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models are widely adopted for their strong generative capabilities, yet remain vulnerable to backdoor attacks. Existing attacks typically rely on fixed textual triggers and single-entity backdoor targets, making them highly susceptible to enumeration-based input defenses and attention-consistency detection. In this work, we propose Semantic-level Backdoor Attack (SemBD), which implants backdoors at the representation level by defining triggers as continuous semantic regions rather than discrete textual patterns. Concretely, SemBD injects semantic backdoors by distillation-based editing of the key and value projection matrices in cross-attention layers, enabling diverse prompts with identical semantic compositions to reliably activate the backdoor attack. To further enhance stealthiness, SemBD incorporates a semantic regularization to prevent unintended activation under incomplete semantics, as well as multi-entity backdoor targets that avoid highly consistent cross-attention patterns. Extensive experiments demonstrate that SemBD achieves a 100% attack success rate while maintaining strong robustness against state-of-the-art input-level defenses.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルはその強力な生成能力に広く採用されているが、バックドア攻撃には弱いままである。
既存の攻撃は通常、固定されたテキストトリガーと単一中心のバックドアターゲットに依存しており、列挙型入力防御とアテンション一貫性検出に非常に敏感である。
本研究では,セマンティックレベルのバックドア攻撃(Semantic-level Backdoor Attack, SemBD)を提案する。
具体的には、セムBDは、キーと値の投影行列を蒸留法で編集することでセマンティックバックドアを注入し、同一のセマンティック組成を持つ多様なプロンプトがバックドア攻撃を確実に活性化することを可能にする。
ステルス性をさらに強化するため、SemBDはセマンティック正規化を導入して、不完全なセマンティクスの下で意図しないアクティベーションを防止するとともに、高度に一貫性のあるクロスアテンションパターンを避けるマルチエンタリティバックドアターゲットも備えている。
広範囲な実験により、SemBDは、最先端の入力レベル防衛に対して強い堅牢性を保ちながら、100%の攻撃成功率を達成することが示された。
関連論文リスト
- Steganographic Backdoor Attacks in NLP: Ultra-Low Poisoning and Defense Evasion [33.35232947017276]
トランスフォーマーモデルは自然言語処理(NLP)アプリケーションの基礎であるが、バックドア攻撃には弱い。
我々はステガノBackdoorを導入し、ステルステクニックを実用的な脅威モデルに適合させる。
SteganoBackdoorの攻撃成功率は99%を超えている。
論文 参考訳(メタデータ) (2025-11-18T09:56:16Z) - Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation [32.24294112337828]
BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。
実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。
我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-06-08T16:40:40Z) - SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。