論文の概要: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.02928v3
- Date: Wed, 4 Sep 2024 06:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:22:33.676690
- Title: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- Title(参考訳): 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃
- Authors: Jiachen Ma, Anda Cao, Zhiqing Xiao, Yijiang Li, Jie Zhang, Chao Ye, Junbo Zhao,
- Abstract要約: JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
- 参考スコア(独自算出の注目度): 10.70975463369742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models can be maliciously used to generate harmful content such as sexually explicit, unfaithful, and misleading or Not-Safe-for-Work (NSFW) images. Previous attacks largely depend on the availability of the diffusion model or involve a lengthy optimization process. In this work, we investigate a more practical and universal attack that does not require the presence of a target model and demonstrate that the high-dimensional text embedding space inherently contains NSFW concepts that can be exploited to generate harmful images. We present the Jailbreaking Prompt Attack (JPA). JPA first searches for the target malicious concepts in the text embedding space using a group of antonyms generated by ChatGPT. Subsequently, a prefix prompt is optimized in the discrete vocabulary space to align malicious concepts semantically in the text embedding space. We further introduce a soft assignment with gradient masking technique that allows us to perform gradient ascent in the discrete vocabulary space. We perform extensive experiments with open-sourced T2I models, e.g. stable-diffusion-v1-4 and closed-sourced online services, e.g. DALLE2, Midjourney with black-box safety checkers. Results show that (1) JPA bypasses both text and image safety checkers (2) while preserving high semantic alignment with the target prompt. (3) JPA demonstrates a much faster speed than previous methods and can be executed in a fully automated manner. These merits render it a valuable tool for robustness evaluation in future text-to-image generation research.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、性的に明示的で、不誠実で、誤解を招くか、安全でない(NSFW)イメージなどの有害なコンテンツを生成するために悪用することができる。
以前の攻撃は拡散モデルの可用性や長い最適化プロセスに大きく依存していた。
本研究では,ターゲットモデルの存在を必要としない,より実用的で普遍的な攻撃について検討し,高次元テキスト埋め込み空間には,有害な画像を生成するために利用可能なNSFW概念が本質的に含まれていることを示す。
本稿では,JPA(Jailbreaking Prompt Attack)について紹介する。
JPAはまず、ChatGPTによって生成されるアントロニムのグループを使用して、テキスト埋め込み空間におけるターゲットの悪意ある概念を検索する。
その後、プレフィックスプロンプトを離散語彙空間に最適化し、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
さらに、個別の語彙空間で勾配上昇を行うための勾配マスキング手法によるソフトアロケーションを導入する。
我々は,オープンソースのT2Iモデル,例えばstable-diffusion-v1-4およびクローズドなオンラインサービス,例えばDALLE2,Midjourneyとブラックボックスセーフティチェッカーを用いた大規模な実験を行った。
その結果、(1)JPAはテキストと画像の安全性チェックをバイパスし、(2)ターゲットプロンプトと高いセマンティックアライメントを維持していることがわかった。
(3) JPAは従来のメソッドよりもはるかに高速で、完全に自動化された方法で実行できる。
これらのメリットは、将来のテキスト・ツー・イメージ・ジェネレーション研究において、ロバストネス評価のための貴重なツールとなる。
関連論文リスト
- SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
Latent Guardは、テキスト・ツー・画像生成における安全性対策を改善するために設計されたフレームワークである。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習する。
提案するフレームワークは,タスク固有のデータ生成パイプラインで構成されている。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Unsafe Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、特に性的シナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。
テキスト・ツー・イメージ・モデルによる安全でないコンテンツ生成をテキストに依存しない方法で軽減するフレームワークであるSafeGenを提案する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [17.50653920106002]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - MMA-Diffusion: MultiModal Attack on Diffusion Models [32.67807098568781]
MMA-Diffusionは、T2Iモデルのセキュリティに顕著で現実的な脅威をもたらす。
オープンソースモデルと商用オンラインサービスの両方において、現在の防御措置を回避している。
論文 参考訳(メタデータ) (2023-11-29T10:39:53Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。