論文の概要: Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling
- arxiv url: http://arxiv.org/abs/2604.12446v1
- Date: Tue, 14 Apr 2026 08:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.343473
- Title: Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling
- Title(参考訳): Scalings Exposes the Trigger: Inter-Attention Scalingによるテキスト・画像拡散モデルにおける入力レベルバックドア検出
- Authors: Zida Li, Jun Li, Yuzhe Sha, Ziqiang Li, Lizhi Xiong, Zhangjie Fu,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは画像合成において顕著な成功を収めているが、大規模データやオープンエコシステムへの依存は深刻なバックドアセキュリティリスクをもたらす。
既存の防御、特に入力レベルメソッドは、より実用的だが、しばしばステルスでセマンティクスを保存するトリガー設計の下で信頼性が低い観測可能な異常に頼っている。
入力レベルのバックドア検出フレームワークであるSETを提案する。これはマルチスケールの摂動下で応答オフセット機能を構築し、小さなクリーンなサンプル集合からコンパクトな良性応答空間を学習する。
- 参考スコア(独自算出の注目度): 12.573852448122716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models have achieved remarkable success in image synthesis, but their reliance on large-scale data and open ecosystems introduces serious backdoor security risks. Existing defenses, particularly input-level methods, are more practical for deployment but often rely on observable anomalies that become unreliable under stealthy, semantics-preserving trigger designs. As modern backdoor attacks increasingly embed triggers into natural inputs, these methods degrade substantially, raising a critical question: can more stable, implicit, and trigger-agnostic differences between benign and backdoor inputs be exploited for detection? In this work, we address this challenge from an active probing perspective. We introduce controlled scaling perturbations on cross-attention and uncover a novel phenomenon termed Cross-Attention Scaling Response Divergence (CSRD), where benign and backdoor inputs exhibit systematically different response evolution patterns across denoising steps. Building on this insight, we propose SET, an input-level backdoor detection framework that constructs response-offset features under multi-scale perturbations and learns a compact benign response space from a small set of clean samples. Detection is then performed by measuring deviations from this learned space, without requiring prior knowledge of the attack or access to model training. Extensive experiments demonstrate that SET consistently outperforms existing baselines across diverse attack methods, trigger types, and model settings, with particularly strong gains under stealthy implicit-trigger scenarios. Overall, SET improves AUROC by 9.1% and ACC by 6.5% over the best baseline, highlighting its effectiveness and robustness for practical deployment.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは画像合成において顕著な成功を収めているが、大規模データやオープンエコシステムへの依存は深刻なバックドアセキュリティリスクをもたらす。
既存の防御、特にインプットレベルの手法は、より実用的であるが、しばしばステルスでセマンティクスを保存するトリガー設計の下で信頼性が低い観測可能な異常に依存している。
現代のバックドア攻撃が自然の入力にトリガーを埋め込むにつれて、これらの手法は大幅に低下し、重要な疑問が持ち上がる。
本研究では,この課題を活発な探索の観点から解決する。
本稿では,クロスアテンションに対するスケーリングの摂動を制御し,クロスアテンション・スケーリング・レスポンス・ディバージェンス(CSRD)と呼ばれる新しい現象を明らかにする。
この知見に基づいて,マルチスケールの摂動下で応答オフセット機能を構築するための入力レベルのバックドア検出フレームワークであるSETを提案し,少数のクリーンサンプルからコンパクトな良性応答空間を学習する。
次に、この学習空間からの偏差を測定して、攻撃の事前知識やモデルトレーニングへのアクセスを必要とせずに検出を行う。
大規模な実験では、SETはさまざまなアタックメソッド、トリガータイプ、モデル設定で既存のベースラインを一貫して上回り、特にステルスな暗黙のトリガーシナリオ下では強力なゲインを示している。
全体として、SETはAUROCを9.1%改善し、ACCを6.5%改善した。
関連論文リスト
- STEP: Detecting Audio Backdoor Attacks via Stability-based Trigger Exposure Profiling [31.05830693695975]
ハードラベルのみのアクセスで動作するブラックボックス・リトレーニングフリーバックドア検出器STEP(Stability-based Trigger Exposure Profiling)を提案する。
その中核となる考え方は、セマンティック・ブレークング・摂動下での異常ラベルの安定性と、セマンティック・ストアング・摂動下での異常ラベルの脆弱性という、バックドア・トリガーの特徴的な二重異常を利用することである。
実験の結果、STEP は平均 AUROC 97.92% と EER 4.54% を達成し、最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2026-03-18T12:14:14Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models [70.03122709795122]
従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。
本研究では、動的注意分析(DEA)と呼ばれる新しいバックドア検出視点を導入し、これらの動的特徴がバックドア検出の指標となることを示す。
我々の手法は既存の検出方法を大きく上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
論文 参考訳(メタデータ) (2025-04-29T07:59:35Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。