論文の概要: Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.20518v1
- Date: Tue, 29 Apr 2025 07:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.801449
- Title: Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるバックドア検出の動的注意解析
- Authors: Zhongqi Wang, Jie Zhang, Shiguang Shan, Xilin Chen,
- Abstract要約: 従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。
本研究では、動的注意分析(DEA)と呼ばれる新しいバックドア検出視点を導入し、これらの動的特徴がバックドア検出の指標となることを示す。
我々の手法は既存の検出方法を大きく上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
- 参考スコア(独自算出の注目度): 70.03122709795122
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies have revealed that text-to-image diffusion models are vulnerable to backdoor attacks, where attackers implant stealthy textual triggers to manipulate model outputs. Previous backdoor detection methods primarily focus on the static features of backdoor samples. However, a vital property of diffusion models is their inherent dynamism. This study introduces a novel backdoor detection perspective named Dynamic Attention Analysis (DAA), showing that these dynamic characteristics serve as better indicators for backdoor detection. Specifically, by examining the dynamic evolution of cross-attention maps, we observe that backdoor samples exhibit distinct feature evolution patterns at the $<$EOS$>$ token compared to benign samples. To quantify these dynamic anomalies, we first introduce DAA-I, which treats the tokens' attention maps as spatially independent and measures dynamic feature using the Frobenius norm. Furthermore, to better capture the interactions between attention maps and refine the feature, we propose a dynamical system-based approach, referred to as DAA-S. This model formulates the spatial correlations among attention maps using a graph-based state equation and we theoretically analyze the global asymptotic stability of this method. Extensive experiments across five representative backdoor attack scenarios demonstrate that our approach significantly surpasses existing detection methods, achieving an average F1 Score of 79.49% and an AUC of 87.67%. The code is available at https://github.com/Robin-WZQ/DAA.
- Abstract(参考訳): 近年の研究では、テキストから画像への拡散モデルがバックドア攻撃に弱いことが判明しており、攻撃者はステルスなテキストトリガーを埋め込んでモデル出力を操作している。
従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。
しかし、拡散モデルの重要な性質は、その固有のダイナミズムである。
本研究では,動的注意分析(DAA)と呼ばれる新しいバックドア検出の視点を導入し,これらの動的特徴がバックドア検出の指標として有効であることを示した。
具体的には, クロスアテンションマップの動的進化を調べることにより, バックドアサンプルは, 良性サンプルと比較して, $<$EOS$>$トークンにおいて, 異なる特徴進化パターンを示すことが明らかとなった。
これらのダイナミックな異常を定量化するために、最初にDAA-Iを導入し、トークンの注意マップを空間的に独立に扱い、フロベニウスノルムを用いて動的特徴を測定する。
さらに,注目マップ間の相互作用をより正確に把握し,特徴を洗練するために,動的システムに基づくアプローチを提案し,これをDAA-Sと呼ぶ。
本モデルは,グラフに基づく状態方程式を用いてアテンションマップ間の空間的相関を定式化し,この手法のグローバルな漸近安定性を理論的に解析する。
5つの代表的なバックドア攻撃シナリオにわたる大規模な実験により、我々のアプローチは既存の検出方法を大幅に上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
コードはhttps://github.com/Robin-WZQ/DAAで公開されている。
関連論文リスト
- Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
Invisible Backdoor Attack (IBA) を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。
UFIDと呼ばれる拡散モデルに基づくブラックボックス入力レベルのバックドア検出フレームワークを提案する。
本手法は,検出効率と実行時間効率において高い性能を実現する。
論文 参考訳(メタデータ) (2024-04-01T13:21:05Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文 参考訳(メタデータ) (2024-02-05T05:46:31Z) - Robust Backdoor Detection for Deep Learning via Topological Evolution Dynamics [18.28911572993562]
ディープラーニングにおけるバックドア攻撃は、特定の入力パターンに対して悪意ある振る舞いを引き起こすために、モデルに隠れたバックドアを挿入する。
本稿では,新しいSSDT (Source-Specific and Dynamic-Triggers) バックドアを導入することで,この仮定に厳しい制約があることを述べる。
本研究では,ロバストなバックドア検出のためのモデルに依存しない基盤としてTED(トポロジカル・エボリューション・ダイナミクス)を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:29:12Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Novelty Detection Through Model-Based Characterization of Neural
Networks [19.191613437266184]
本稿では,新しい入力タイプや条件を検出するために,ニューラルネットワークのモデルに基づく特徴付けを提案する。
我々は,MNIST,Fashion-MNIST,CIFAR-10,CURE-TSRの4つの画像認識データセットを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2020-08-13T20:03:25Z) - Exposing Backdoors in Robust Machine Learning Models [0.5672132510411463]
逆向きに堅牢なモデルがバックドア攻撃の影響を受けやすいことを示す。
バックドアはそのようなモデルの 特徴表現に反映されます
この観測は、AEGISと呼ばれる検出技術を用いて、バックドア感染モデルを検出するために利用される。
論文 参考訳(メタデータ) (2020-02-25T04:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。