論文の概要: A Pilot Study of Query-Free Adversarial Attack against Stable Diffusion
- arxiv url: http://arxiv.org/abs/2303.16378v2
- Date: Mon, 3 Apr 2023 03:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:15:38.917569
- Title: A Pilot Study of Query-Free Adversarial Attack against Stable Diffusion
- Title(参考訳): 安定拡散に対するクエリフリー逆攻撃に関するパイロット研究
- Authors: Haomin Zhuang, Yihua Zhang and Sijia Liu
- Abstract要約: 安定拡散に対する対角攻撃発生の問題点について検討する。
T2Iモデルの脆弱性は、テキストエンコーダの堅牢性の欠如に根ざしている。
提案したターゲットアタックは、拡散モデルを正確に操り、ターゲット画像の内容を精査できることを示す。
- 参考スコア(独自算出の注目度): 10.985088790765873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the record-breaking performance in Text-to-Image (T2I) generation by
Stable Diffusion, less research attention is paid to its adversarial
robustness. In this work, we study the problem of adversarial attack generation
for Stable Diffusion and ask if an adversarial text prompt can be obtained even
in the absence of end-to-end model queries. We call the resulting problem
'query-free attack generation'. To resolve this problem, we show that the
vulnerability of T2I models is rooted in the lack of robustness of text
encoders, e.g., the CLIP text encoder used for attacking Stable Diffusion.
Based on such insight, we propose both untargeted and targeted query-free
attacks, where the former is built on the most influential dimensions in the
text embedding space, which we call steerable key dimensions. By leveraging the
proposed attacks, we empirically show that only a five-character perturbation
to the text prompt is able to cause the significant content shift of
synthesized images using Stable Diffusion. Moreover, we show that the proposed
target attack can precisely steer the diffusion model to scrub the targeted
image content without causing much change in untargeted image content. Our code
is available at https://github.com/OPTML-Group/QF-Attack.
- Abstract(参考訳): 安定拡散によるテキスト・トゥ・イメージ(T2I)生成における記録破りのパフォーマンスにもかかわらず、その逆の堅牢性には研究の注意が払われていない。
本研究では,安定拡散に対する対角攻撃生成の問題について検討し,エンドツーエンドのモデルクエリがなくても,逆方向のテキストプロンプトが得られるかどうかを問う。
結果の問題を「クエリフリーアタック生成」と呼ぶ。
この問題を解決するために、T2Iモデルの脆弱性は、テキストエンコーダの堅牢性の欠如、例えば、安定拡散攻撃に使用されるCLIPテキストエンコーダに根ざしていることを示す。
このような知見に基づいて,前者がテキスト埋め込み空間において最も影響力のある次元に基づいて構築され,我々は「ステアブルキー次元」と呼んでいる,非ターゲットのクエリフリーアタックとターゲットのクエリフリーアタックの両方を提案する。
提案する攻撃を活用し,テキストプロンプトに対する5文字の摂動のみが,安定な拡散を用いて合成画像の重要コンテンツシフトを誘発できることを実証的に示す。
さらに,提案するターゲット攻撃は拡散モデルを正確に制御し,対象画像コンテンツをスクラブし,非対象画像コンテンツに大きな変化を生じさせないことを示す。
私たちのコードはhttps://github.com/OPTML-Group/QF-Attack.comで利用可能です。
関連論文リスト
- SteerDiff: Steering towards Safe Text-to-Image Diffusion Models [5.781285400461636]
テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。
本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。
提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-03T17:34:55Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - Evaluating the Robustness of Text-to-image Diffusion Models against
Real-world Attacks [22.651626059348356]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は,テキスト記述から高品質な画像を生成することを約束している。
1つの根本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。
この研究は、現実世界の攻撃に対するT2I DMの最初の堅牢性評価を提供する。
論文 参考訳(メタデータ) (2023-06-16T00:43:35Z) - Designing a Better Asymmetric VQGAN for StableDiffusion [73.21783102003398]
革命的なテキスト・ツー・イメージ生成器であるStableDiffusionは、VQGANを介して潜時空間の拡散モデルを学ぶ。
2つの単純な設計を持つ新しい非対称VQGANを提案する。
StableDiffusionベースの塗り絵やローカル編集手法で広く用いられる。
論文 参考訳(メタデータ) (2023-06-07T17:56:02Z) - Discovering Failure Modes of Text-guided Diffusion Models via
Adversarial Search [52.519433040005126]
テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。
本研究は,TDMの障害モードについて,より詳細に研究し,理解することを目的としている。
本稿では,TDM上での最初の逆探索手法であるSAGEを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:00Z) - Towards Prompt-robust Face Privacy Protection via Adversarial Decoupling
Augmentation Framework [20.652130361862053]
顔認識保護アルゴリズムの防御性能を高めるために,Adversarial Decoupling Augmentation Framework (ADAF)を提案する。
ADAFは、様々な攻撃プロンプトに対する防御安定のために、多レベルテキスト関連の拡張を導入している。
論文 参考訳(メタデータ) (2023-05-06T09:00:50Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。