論文の概要: DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.02739v1
- Date: Mon, 5 Feb 2024 05:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:33:16.092253
- Title: DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models
- Title(参考訳): DisDet: 拡散モデルによるバックドア攻撃の検出可能性を探る
- Authors: Yang Sui, Huy Phan, Jinqi Xiao, Tianfang Zhang, Zijie Tang, Cong Shi,
Yan Wang, Yingying Chen, Bo Yuan
- Abstract要約: いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
- 参考スコア(独自算出の注目度): 23.502100653704446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the exciting generative AI era, the diffusion model has emerged as a very
powerful and widely adopted content generation and editing tool for various
data modalities, making the study of their potential security risks very
necessary and critical. Very recently, some pioneering works have shown the
vulnerability of the diffusion model against backdoor attacks, calling for
in-depth analysis and investigation of the security challenges of this popular
and fundamental AI technique.
In this paper, for the first time, we systematically explore the
detectability of the poisoned noise input for the backdoored diffusion models,
an important performance metric yet little explored in the existing works.
Starting from the perspective of a defender, we first analyze the properties of
the trigger pattern in the existing diffusion backdoor attacks, discovering the
important role of distribution discrepancy in Trojan detection. Based on this
finding, we propose a low-cost trigger detection mechanism that can effectively
identify the poisoned input noise. We then take a further step to study the
same problem from the attack side, proposing a backdoor attack strategy that
can learn the unnoticeable trigger to evade our proposed detection scheme.
Empirical evaluations across various diffusion models and datasets
demonstrate the effectiveness of the proposed trigger detection and
detection-evading attack strategy. For trigger detection, our distribution
discrepancy-based solution can achieve a 100\% detection rate for the Trojan
triggers used in the existing works. For evading trigger detection, our
proposed stealthy trigger design approach performs end-to-end learning to make
the distribution of poisoned noise input approach that of benign noise,
enabling nearly 100\% detection pass rate with very high attack and benign
performance for the backdoored diffusion models.
- Abstract(参考訳): エキサイティングな生成AIの時代、拡散モデルは、さまざまなデータモダリティのための非常に強力で広く採用されているコンテンツ生成および編集ツールとして現れ、潜在的なセキュリティリスクの研究が極めて必要かつ重要になっている。
最近では、いくつかの先駆的な研究がバックドア攻撃に対する拡散モデルの脆弱性を示し、この人気で基本的なai技術のセキュリティ上の課題を詳細に分析し調査している。
本稿では, バックドア拡散モデルにおける有毒音入力の検知可能性について, 既存の研究ではほとんど検討されていない重要な性能指標として, 初めて系統的に検討する。
ディフェンダーの観点から,既存の拡散バックドア攻撃におけるトリガーパターンの特性を解析し,トロイの木馬検出における分布不一致の重要な役割を明らかにする。
そこで本研究では, 有毒な入力ノイズを効果的に検出できる低コストトリガー検出機構を提案する。
次に,攻撃側からも同様の問題を研究するためのさらなる一歩を踏み出し,我々の提案する検出スキームを回避できる無意味なトリガを学習できるバックドア攻撃戦略を提案する。
各種拡散モデルおよびデータセットの実験的評価は、提案したトリガー検出および検出回避攻撃戦略の有効性を示す。
トリガ検出には,既存の作業で使用されているトロイの木馬トリガの100倍の検知率が得られる。
提案するステルストリガー設計手法は, 有毒雑音入力アプローチを良性雑音に分散させるためにエンドツーエンド学習を行い, バックドア拡散モデルにおいて, 高い攻撃率と良性性能を有する100~%近い検出パスレートを実現する。
関連論文リスト
- Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Space [0.24578723416255752]
本稿では,深層強化学習(DRL)エージェントポリシーにおけるバックドアの脅威について検討する。
実行時に検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:48:23Z) - Diffusion-based Adversarial Purification for Intrusion Detection [0.6990493129893112]
不正な摂動はMLモデルを誤解させ、攻撃者が検出を回避したり、誤った警告をトリガーしたりすることを可能にする。
敵の浄化は、特に有望な結果を示す拡散モデルによって、説得力のある解決策として現れてきた。
本稿では,ネットワーク侵入検出における逆例の浄化における拡散モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-06-25T14:48:28Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Rethinking Backdoor Attacks on Dataset Distillation: A Kernel Method
Perspective [65.70799289211868]
本稿では, データセット蒸留に特化した2つの新しい理論駆動トリガパターン生成手法を提案する。
最適化に基づくトリガ設計フレームワークは,データセットの蒸留に対する効果的なバックドア攻撃を通知する。
論文 参考訳(メタデータ) (2023-11-28T09:53:05Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Detecting Backdoors in Neural Networks Using Novel Feature-Based Anomaly
Detection [16.010654200489913]
本稿では,ニューラルネットワークのバックドア攻撃に対する新たな防御法を提案する。
バックドアネットワークの機能抽出層が新機能を組み込んでトリガーの存在を検出するという直感に基づいている。
バックドアの検出には、クリーンな検証データに基づいて訓練された2つの相乗的異常検出器を使用する。
論文 参考訳(メタデータ) (2020-11-04T20:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。