論文の概要: Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models!
- arxiv url: http://arxiv.org/abs/2402.04699v2
- Date: Thu, 23 May 2024 02:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:59:47.146738
- Title: Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models!
- Title(参考訳): ブラックボックス拡散モデルで安全ガードレールをハックする方法
- Authors: Shashank Kotyan, Po-Yuan Mao, Pin-Yu Chen, Danilo Vasconcellos Vargas,
- Abstract要約: EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
- 参考スコア(独自算出の注目度): 52.0855711767075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks can be exploited using natural adversarial samples, which do not impact human perception. Current approaches often rely on deep neural networks' white-box nature to generate these adversarial samples or synthetically alter the distribution of adversarial samples compared to the training distribution. In contrast, we propose EvoSeed, a novel evolutionary strategy-based algorithmic framework for generating photo-realistic natural adversarial samples. Our EvoSeed framework uses auxiliary Conditional Diffusion and Classifier models to operate in a black-box setting. We employ CMA-ES to optimize the search for an initial seed vector, which, when processed by the Conditional Diffusion Model, results in the natural adversarial sample misclassified by the Classifier Model. Experiments show that generated adversarial images are of high image quality, raising concerns about generating harmful content bypassing safety classifiers. Our research opens new avenues to understanding the limitations of current safety mechanisms and the risk of plausible attacks against classifier systems using image generation. Project Website can be accessed at: https://shashankkotyan.github.io/EvoSeed.
- Abstract(参考訳): ディープニューラルネットワークは、人間の知覚に影響を与えない自然な敵対的なサンプルを使って利用することができる。
現在のアプローチは、しばしば深層ニューラルネットワークのホワイトボックスの性質に依存して、これらの敵のサンプルを生成したり、トレーニング分布と比較して敵のサンプルの分布を合成的に変更する。
対照的にEvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための新しい進化的戦略に基づくアルゴリズムフレームワークである。
私たちのEvoSeedフレームワークは、ブラックボックス設定で操作するために補助条件拡散と分類器モデルを使用します。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,分類モデルで誤分類された自然逆数サンプルが生成される。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
本研究は、画像生成を用いた分類器システムに対する、現在の安全性メカニズムの限界と、妥当な攻撃の危険性を理解するための新たな道を開くものである。
Project Webサイトへのアクセスは以下の通りである。
関連論文リスト
- Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - FACTUAL: A Novel Framework for Contrastive Learning Based Robust SAR Image Classification [10.911464455072391]
FACTUALは、逆行訓練と堅牢なSAR分類のためのコントラストラーニングフレームワークである。
本モデルでは, 洗浄試料の99.7%, 摂動試料の89.6%の精度が得られた。
論文 参考訳(メタデータ) (2024-04-04T06:20:22Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Adversarial Purification of Information Masking [8.253834429336656]
アドリアックは、ニューラルネットワークを騙すイメージに対して、極小で知覚不能な摂動を発生させる。
これらに対抗して、敵の入力サンプルをクリーンな出力画像に変換し、敵の攻撃を防ごうとする。
本稿では,情報マスク浄化 (IMPure) と呼ばれる新しい対向的浄化手法を提案し,対向的摂動を広範囲に排除する。
論文 参考訳(メタデータ) (2023-11-26T15:50:19Z) - Diffusion-Based Adversarial Sample Generation for Improved Stealthiness
and Controllability [62.105715985563656]
そこで本研究では,現実的な対向サンプルを生成するための拡散型射影勾配 Descent (Diff-PGD) という新しいフレームワークを提案する。
我々のフレームワークは、デジタルアタック、物理世界アタック、スタイルベースのアタックなど、特定のタスクに簡単にカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-25T21:51:23Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。