論文の概要: NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation
- arxiv url: http://arxiv.org/abs/2503.06453v1
- Date: Sun, 09 Mar 2025 05:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:54.463265
- Title: NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation
- Title(参考訳): NaviDet: ニューロン活性化変化によるテキスト・画像合成における効率的な入力レベルのバックドア検出
- Authors: Shengfang Zhai, Jiajun Li, Yue Liu, Huanran Chen, Zhihua Tian, Wenjie Qu, Qingni Shen, Ruoxi Jia, Yinpeng Dong, Jiaheng Zhang,
- Abstract要約: NaviDetは、さまざまなバックドアターゲットにわたるバックドア入力を特定するための、最初の一般的なインプットレベルのバックドア検出フレームワークである。
我々のアプローチは、拡散生成過程の初期段階において、トリガートークンが大きなニューロン活性化を誘導する傾向があるという新しい観察に基づいている。
- 参考スコア(独自算出の注目度): 37.075824084492524
- License:
- Abstract: In recent years, text-to-image (T2I) diffusion models have garnered significant attention for their ability to generate high-quality images reflecting text prompts. However, their growing popularity has also led to the emergence of backdoor threats, posing substantial risks. Currently, effective defense strategies against such threats are lacking due to the diversity of backdoor targets in T2I synthesis. In this paper, we propose NaviDet, the first general input-level backdoor detection framework for identifying backdoor inputs across various backdoor targets. Our approach is based on the new observation that trigger tokens tend to induce significant neuron activation variation in the early stage of the diffusion generation process, a phenomenon we term Early-step Activation Variation. Leveraging this insight, NaviDet detects malicious samples by analyzing neuron activation variations caused by input tokens. Through extensive experiments, we demonstrate the effectiveness and efficiency of our method against various T2I backdoor attacks, surpassing existing baselines with significantly lower computational overhead. Furthermore, we rigorously demonstrate that our method remains effective against potential adaptive attacks.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ拡散モデル(T2I)は,テキスト・プロンプトを反映した高品質な画像を生成する能力に注目が集まっている。
しかし、その人気が高まり、バックドアの脅威が出現し、かなりのリスクがもたらされた。
現在、T2I合成におけるバックドアターゲットの多様性のため、このような脅威に対する効果的な防御戦略が欠如している。
本稿では,各種のバックドア対象に対するバックドア入力を識別する,最初の汎用的な入力レベルのバックドア検出フレームワークであるNaviDetを提案する。
本研究のアプローチは, 拡散生成過程の初期段階において, トリガートークンが大きなニューロン活性化変化を引き起こす傾向にあるという新たな観測に基づいている。
この知見を活用することで、NaviDetは入力トークンによって引き起こされるニューロンの活性化変動を分析して、悪意のあるサンプルを検出する。
本研究では,T2Iバックドア攻撃に対する本手法の有効性と効率を実証し,計算オーバーヘッドを著しく低減した既存ベースラインを克服した。
さらに,本手法がアダプティブアタックに対して有効であることを示す。
関連論文リスト
- Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文 参考訳(メタデータ) (2024-02-05T05:46:31Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Personalization as a Shortcut for Few-Shot Backdoor Attack against
Text-to-Image Diffusion Models [23.695414399663235]
本稿では,個人化によるバックドア攻撃に対するテキスト・ツー・イメージ(T2I)拡散モデルの潜在的な脆弱性について検討する。
本研究は,テキスト・インバージョンとDreamBoothによるパーソナライズ手法の2つのファミリーで普及しているゼロデイバックドア脆弱性に焦点を当てた。
Textual InversionとDreamBoothの即時処理を研究することで、未確認トークンの扱い方によって、バックドア攻撃を考案しました。
論文 参考訳(メタデータ) (2023-05-18T04:28:47Z) - Boosting Adversarial Transferability via Fusing Logits of Top-1
Decomposed Feature [36.78292952798531]
本稿では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃法を提案する。
提案手法は,中間層特徴量より大きい特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。
論文 参考訳(メタデータ) (2023-05-02T12:27:44Z) - Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering [39.11590429626592]
勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
論文 参考訳(メタデータ) (2023-01-29T01:17:46Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。