論文の概要: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.02928v2
- Date: Sun, 2 Jun 2024 12:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 15:27:55.047148
- Title: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
- Title(参考訳): 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃
- Authors: Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye, Junbo Zhao,
- Abstract要約: 自動攻撃フレームワークであるJPA(Jailbreak Prompt Attack)を提案する。
我々は、元の画像のセマンティクスを保ちながら、安全チェックをバイパスするプロンプトを維持することを目的としている。
評価の結果,JPA はオンライン・サービスとオフライン・ディフェンス・セーフティ・チェッカーの両方をバイパスして NSFW 画像の生成に成功した。
- 参考スコア(独自算出の注目度): 11.24680299774092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) models have received widespread attention due to their remarkable generation capabilities. However, concerns have been raised about the ethical implications of the models in generating Not Safe for Work (NSFW) images because NSFW images may cause discomfort to people or be used for illegal purposes. To mitigate the generation of such images, T2I models deploy various types of safety checkers. However, they still cannot completely prevent the generation of NSFW images. In this paper, we propose the Jailbreak Prompt Attack (JPA) - an automatic attack framework. We aim to maintain prompts that bypass safety checkers while preserving the semantics of the original images. Specifically, we aim to find prompts that can bypass safety checkers because of the robustness of the text space. Our evaluation demonstrates that JPA successfully bypasses both online services with closed-box safety checkers and offline defenses safety checkers to generate NSFW images.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、その顕著な生成能力のために広く注目を集めている。
しかし、NSFW画像は人に対する不快感や違法な目的のために使用される可能性があるため、NSFW(Not Safe for Work)画像を生成する際のモデルによる倫理的影響が懸念されている。
このような画像の生成を緩和するため、T2Iモデルは様々な種類の安全チェッカーをデプロイする。
しかし,NSFW画像の生成を完全に防止することはできない。
本稿では,自動攻撃フレームワークであるJPA(Jailbreak Prompt Attack)を提案する。
我々は、元の画像のセマンティクスを保ちながら、安全チェックをバイパスするプロンプトを維持することを目的としている。
具体的には,テキスト空間の堅牢性から,安全性チェックを回避できるプロンプトを見つけることを目的としている。
評価の結果,JPAはオンライン・サービスとオフライン・ディフェンス・セーフティ・チェッカーの両方をバイパスしてNSFW画像を生成することができた。
関連論文リスト
- SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
Latent Guardは、テキスト・ツー・画像生成における安全性対策を改善するために設計されたフレームワークである。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習する。
提案するフレームワークは,タスク固有のデータ生成パイプラインで構成されている。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Unsafe Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、特に性的シナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。
テキスト・ツー・イメージ・モデルによる安全でないコンテンツ生成をテキストに依存しない方法で軽減するフレームワークであるSafeGenを提案する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [17.50653920106002]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - MMA-Diffusion: MultiModal Attack on Diffusion Models [32.67807098568781]
MMA-Diffusionは、T2Iモデルのセキュリティに顕著で現実的な脅威をもたらす。
オープンソースモデルと商用オンラインサービスの両方において、現在の防御措置を回避している。
論文 参考訳(メタデータ) (2023-11-29T10:39:53Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。