論文の概要: Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks
- arxiv url: http://arxiv.org/abs/2401.08725v1
- Date: Tue, 16 Jan 2024 12:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:14:04.984788
- Title: Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks
- Title(参考訳): 標的攻撃による安定拡散の脆弱性を明らかにする
- Authors: Chenyu Zhang, Lanjun Wang, Anan Liu
- Abstract要約: 本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 41.531913152661296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in text-to-image models, particularly Stable Diffusion,
have marked significant achievements in various applications. With these
advancements, there are growing safety concerns about the vulnerability of the
model that malicious entities exploit to generate targeted harmful images.
However, the existing methods in the vulnerability of the model mainly evaluate
the alignment between the prompt and generated images, but fall short in
revealing the vulnerability associated with targeted image generation. In this
study, we formulate the problem of targeted adversarial attack on Stable
Diffusion and propose a framework to generate adversarial prompts.
Specifically, we design a gradient-based embedding optimization method to craft
reliable adversarial prompts that guide stable diffusion to generate specific
images. Furthermore, after obtaining successful adversarial prompts, we reveal
the mechanisms that cause the vulnerability of the model. Extensive experiments
on two targeted attack tasks demonstrate the effectiveness of our method in
targeted attacks. The code can be obtained in
https://github.com/datar001/Revealing-Vulnerabilities-in-Stable-Diffusion-via-Targeted-Attacks.
- Abstract(参考訳): 近年のテキストから画像へのモデル、特に安定拡散の発展は、様々な応用において大きな成果をもたらしている。
これらの進歩により、悪意あるエンティティが標的となる有害な画像を生成するために悪用するモデルの脆弱性に対する安全上の懸念が高まっている。
しかし,モデルの既存手法では,プロンプト画像と生成画像のアライメントを主に評価しているが,対象画像生成に関連する脆弱性を明らかにすることは困難である。
本研究では,安定拡散に対する敵意攻撃の問題を定式化し,敵意プロンプトを生成する枠組みを提案する。
具体的には,特定の画像を生成するために,安定拡散を導く信頼できる逆プロンプトを作成するために,勾配に基づく埋め込み最適化手法を設計する。
さらに,攻撃的プロンプトを成功させた後,モデルの脆弱性を引き起こすメカニズムを明らかにする。
2つの攻撃課題に対する広範囲な実験により,本手法の有効性が示された。
コードはhttps://github.com/datar001/Revealing-Vulnerabilities-in-Stable-Diffusion-via-Targeted-Attacksで取得できる。
関連論文リスト
- Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Invisible Backdoor Attacks on Diffusion Models [22.08671395877427]
近年の研究では、バックドア攻撃に対する拡散モデルの脆弱性が明らかにされている。
本稿では,目に見えないトリガーの獲得と,挿入されたバックドアのステルスネスとレジリエンスの向上を目的とした,革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T17:43:19Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - LFAA: Crafting Transferable Targeted Adversarial Examples with
Low-Frequency Perturbations [25.929492841042666]
本稿では,トランスファー可能な対象対向例を生成するための新しい手法を提案する。
画像の高周波成分の摂動にディープニューラルネットワークの脆弱性を利用する。
提案手法は最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-10-31T04:54:55Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Threat Model-Agnostic Adversarial Defense using Diffusion Models [14.603209216642034]
ディープニューラルネットワーク(DNN)は、敵攻撃として知られる、知覚できない悪意のある摂動に対して非常に敏感である。
ディープニューラルネットワーク(DNN)は、敵攻撃として知られる、知覚できない悪意のある摂動に対して非常に敏感である。
論文 参考訳(メタデータ) (2022-07-17T06:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。