論文の概要: Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.09669v1
- Date: Fri, 14 Jun 2024 02:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:23:26.431371
- Title: Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models
- Title(参考訳): 監視機を見ろ! セキュリティ強化拡散モデルに対するバックドア攻撃
- Authors: Changjiang Li, Ren Pang, Bochuan Cao, Jinghui Chen, Fenglong Ma, Shouling Ji, Ting Wang,
- Abstract要約: 本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
- 参考スコア(独自算出の注目度): 65.30406788716104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to their remarkable denoising capabilities, diffusion models are increasingly being employed as defensive tools to reinforce the security of other models, notably in purifying adversarial examples and certifying adversarial robustness. However, the security risks of these practices themselves remain largely unexplored, which is highly concerning. To bridge this gap, this work investigates the vulnerabilities of security-enhancing diffusion models. Specifically, we demonstrate that these models are highly susceptible to DIFF2, a simple yet effective backdoor attack, which substantially diminishes the security assurance provided by such models. Essentially, DIFF2 achieves this by integrating a malicious diffusion-sampling process into the diffusion model, guiding inputs embedded with specific triggers toward an adversary-defined distribution while preserving the normal functionality for clean inputs. Our case studies on adversarial purification and robustness certification show that DIFF2 can significantly reduce both post-purification and certified accuracy across benchmark datasets and models, highlighting the potential risks of relying on pre-trained diffusion models as defensive tools. We further explore possible countermeasures, suggesting promising avenues for future research.
- Abstract(参考訳): その顕著なデノナイジング能力のおかげで、拡散モデルは、他のモデルのセキュリティを強化するための防御ツールとして、特に敵の例を浄化し、敵の堅牢性を証明するために、ますます採用されている。
しかし、これらのプラクティス自体のセキュリティリスクはほとんど未調査のままであり、非常に懸念されている。
このギャップを埋めるために,セキュリティ強化拡散モデルの脆弱性について検討する。
具体的には、これらのモデルが、単純で効果的なバックドア攻撃であるDIFF2に対して非常に感受性が高く、そのようなモデルによって提供されるセキュリティ保証を著しく低下させることを示した。
本質的には、DIFF2は、悪意のある拡散サンプリングプロセスを拡散モデルに統合し、特定のトリガに埋め込まれた入力を、通常の入力機能を保持しながら、敵が定義した分布に誘導する。
本研究のケーススタディでは,DIFF2は,事前学習した拡散モデルに防御ツールとして頼ることによる潜在的なリスクを浮き彫りにして,ベンチマークデータセットやモデル間でのポストパーフィケーションと認証精度の両方を著しく低減できることを示した。
今後の研究に期待できる道筋を示唆し、さらなる対策の可能性を探る。
関連論文リスト
- Diffusion-based Adversarial Purification for Intrusion Detection [0.6990493129893112]
不正な摂動はMLモデルを誤解させ、攻撃者が検出を回避したり、誤った警告をトリガーしたりすることを可能にする。
敵の浄化は、特に有望な結果を示す拡散モデルによって、説得力のある解決策として現れてきた。
本稿では,ネットワーク侵入検出における逆例の浄化における拡散モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-06-25T14:48:28Z) - Invisible Backdoor Attacks on Diffusion Models [22.08671395877427]
近年の研究では、バックドア攻撃に対する拡散モデルの脆弱性が明らかにされている。
本稿では,目に見えないトリガーの獲得と,挿入されたバックドアのステルスネスとレジリエンスの向上を目的とした,革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T17:43:19Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。
我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。
提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文 参考訳(メタデータ) (2023-05-31T19:38:12Z) - Membership Inference Attacks against Diffusion Models [0.0]
拡散モデルは近年、革新的な生成モデルとして注目されている。
本研究では,拡散モデルがメンバシップ推論攻撃に耐性があるかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-07T05:20:20Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。