論文の概要: DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.02739v1
- Date: Mon, 5 Feb 2024 05:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:33:16.092253
- Title: DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models
- Title(参考訳): DisDet: 拡散モデルによるバックドア攻撃の検出可能性を探る
- Authors: Yang Sui, Huy Phan, Jinqi Xiao, Tianfang Zhang, Zijie Tang, Cong Shi,
Yan Wang, Yingying Chen, Bo Yuan
- Abstract要約: いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
- 参考スコア(独自算出の注目度): 23.502100653704446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the exciting generative AI era, the diffusion model has emerged as a very
powerful and widely adopted content generation and editing tool for various
data modalities, making the study of their potential security risks very
necessary and critical. Very recently, some pioneering works have shown the
vulnerability of the diffusion model against backdoor attacks, calling for
in-depth analysis and investigation of the security challenges of this popular
and fundamental AI technique.
In this paper, for the first time, we systematically explore the
detectability of the poisoned noise input for the backdoored diffusion models,
an important performance metric yet little explored in the existing works.
Starting from the perspective of a defender, we first analyze the properties of
the trigger pattern in the existing diffusion backdoor attacks, discovering the
important role of distribution discrepancy in Trojan detection. Based on this
finding, we propose a low-cost trigger detection mechanism that can effectively
identify the poisoned input noise. We then take a further step to study the
same problem from the attack side, proposing a backdoor attack strategy that
can learn the unnoticeable trigger to evade our proposed detection scheme.
Empirical evaluations across various diffusion models and datasets
demonstrate the effectiveness of the proposed trigger detection and
detection-evading attack strategy. For trigger detection, our distribution
discrepancy-based solution can achieve a 100\% detection rate for the Trojan
triggers used in the existing works. For evading trigger detection, our
proposed stealthy trigger design approach performs end-to-end learning to make
the distribution of poisoned noise input approach that of benign noise,
enabling nearly 100\% detection pass rate with very high attack and benign
performance for the backdoored diffusion models.
- Abstract(参考訳): エキサイティングな生成AIの時代、拡散モデルは、さまざまなデータモダリティのための非常に強力で広く採用されているコンテンツ生成および編集ツールとして現れ、潜在的なセキュリティリスクの研究が極めて必要かつ重要になっている。
最近では、いくつかの先駆的な研究がバックドア攻撃に対する拡散モデルの脆弱性を示し、この人気で基本的なai技術のセキュリティ上の課題を詳細に分析し調査している。
本稿では, バックドア拡散モデルにおける有毒音入力の検知可能性について, 既存の研究ではほとんど検討されていない重要な性能指標として, 初めて系統的に検討する。
ディフェンダーの観点から,既存の拡散バックドア攻撃におけるトリガーパターンの特性を解析し,トロイの木馬検出における分布不一致の重要な役割を明らかにする。
そこで本研究では, 有毒な入力ノイズを効果的に検出できる低コストトリガー検出機構を提案する。
次に,攻撃側からも同様の問題を研究するためのさらなる一歩を踏み出し,我々の提案する検出スキームを回避できる無意味なトリガを学習できるバックドア攻撃戦略を提案する。
各種拡散モデルおよびデータセットの実験的評価は、提案したトリガー検出および検出回避攻撃戦略の有効性を示す。
トリガ検出には,既存の作業で使用されているトロイの木馬トリガの100倍の検知率が得られる。
提案するステルストリガー設計手法は, 有毒雑音入力アプローチを良性雑音に分散させるためにエンドツーエンド学習を行い, バックドア拡散モデルにおいて, 高い攻撃率と良性性能を有する100~%近い検出パスレートを実現する。
関連論文リスト
- Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - Rethinking Backdoor Attacks on Dataset Distillation: A Kernel Method
Perspective [65.70799289211868]
本稿では, データセット蒸留に特化した2つの新しい理論駆動トリガパターン生成手法を提案する。
最適化に基づくトリガ設計フレームワークは,データセットの蒸留に対する効果的なバックドア攻撃を通知する。
論文 参考訳(メタデータ) (2023-11-28T09:53:05Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Backdoor Attacks Against Incremental Learners: An Empirical Evaluation
Study [79.33449311057088]
本稿では,11人の典型的なインクリメンタル学習者の3つの学習シナリオに対する中毒ベースのバックドア攻撃に対する高い脆弱性を実証的に明らかにする。
アクティベーションクラスタリングに基づく防御機構は,潜在的なセキュリティリスクを軽減するためのトリガーパターンの検出に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-28T09:17:48Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Trigger Hunting with a Topological Prior for Trojan Detection [16.376009231934884]
本稿では、トロイの木馬検出の問題、すなわちトロイの木馬モデルを特定することに取り組む。
一般的なアプローチの1つはリバースエンジニアリングであり、モデルの予測を操作することによってクリーンなイメージ上のトリガを復元する。
リバースエンジニアリングアプローチの大きな課題の1つは、トリガーの巨大な検索スペースである。
多様性やトポロジカル・シンプルさといった革新的な先例を提案し、適切なトリガを見つける可能性を高めるだけでなく、見出されたトリガの品質を向上させる。
論文 参考訳(メタデータ) (2021-10-15T19:47:00Z) - Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。
現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。
高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文 参考訳(メタデータ) (2021-04-07T22:05:28Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Detecting Backdoors in Neural Networks Using Novel Feature-Based Anomaly
Detection [16.010654200489913]
本稿では,ニューラルネットワークのバックドア攻撃に対する新たな防御法を提案する。
バックドアネットワークの機能抽出層が新機能を組み込んでトリガーの存在を検出するという直感に基づいている。
バックドアの検出には、クリーンな検証データに基づいて訓練された2つの相乗的異常検出器を使用する。
論文 参考訳(メタデータ) (2020-11-04T20:33:51Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。