論文の概要: SneakyPrompt: Jailbreaking Text-to-image Generative Models
- arxiv url: http://arxiv.org/abs/2305.12082v3
- Date: Fri, 10 Nov 2023 19:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:51:11.025135
- Title: SneakyPrompt: Jailbreaking Text-to-image Generative Models
- Title(参考訳): SneakyPrompt: テキストから画像生成モデルへの脱獄
- Authors: Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao
- Abstract要約: 我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
- 参考スコア(独自算出の注目度): 20.645304189835944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E
raise many ethical concerns due to the generation of harmful images such as
Not-Safe-for-Work (NSFW) ones. To address these ethical concerns, safety
filters are often adopted to prevent the generation of NSFW images. In this
work, we propose SneakyPrompt, the first automated attack framework, to
jailbreak text-to-image generative models such that they generate NSFW images
even if safety filters are adopted. Given a prompt that is blocked by a safety
filter, SneakyPrompt repeatedly queries the text-to-image generative model and
strategically perturbs tokens in the prompt based on the query results to
bypass the safety filter. Specifically, SneakyPrompt utilizes reinforcement
learning to guide the perturbation of tokens. Our evaluation shows that
SneakyPrompt successfully jailbreaks DALL$\cdot$E 2 with closed-box safety
filters to generate NSFW images. Moreover, we also deploy several
state-of-the-art, open-source safety filters on a Stable Diffusion model. Our
evaluation shows that SneakyPrompt not only successfully generates NSFW images,
but also outperforms existing text adversarial attacks when extended to
jailbreak text-to-image generative models, in terms of both the number of
queries and qualities of the generated NSFW images. SneakyPrompt is open-source
and available at this repository:
\url{https://github.com/Yuchen413/text2image_safety}.
- Abstract(参考訳): 安定拡散やDALL$\cdot$Eのようなテキストから画像への生成モデルは、Not-Safe-for-Work(NSFW)のような有害な画像を生成するため、多くの倫理的懸念を提起する。
これらの倫理的懸念に対処するために、NSFW画像の生成を防ぐための安全フィルタがしばしば採用されている。
本研究では,安全フィルタを適用してもNSFW画像を生成するようなジェイルブレイクテキスト・イメージ生成モデルに対して,最初の自動攻撃フレームワークであるSneakyPromptを提案する。
安全フィルタによってブロックされたプロンプトが与えられると、sneapypromptはテキストから画像への生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
具体的には、SneakyPromptは強化学習を利用してトークンの摂動を誘導する。
SneakyPromptは,NSFW画像を生成するクローズドボックスセーフフィルタを用いてDALL$\cdot$E 2のジェイルブレイクに成功した。
さらに,安定拡散モデル上には,最先端のオープンソース安全フィルタを複数配置する。
SneakyPrompt は NSFW 画像の生成に成功しているだけでなく,生成した NSFW 画像のクエリ数と品質の両面から,jailbreak テキスト・ツー・イメージ生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
sneakypromptはオープンソースであり、このリポジトリで利用可能である。
関連論文リスト
- BSPA: Exploring Black-box Stealthy Prompt Attacks against Image
Generators [43.23698370787517]
大規模な画像生成装置は、様々な分野にわたって大きな変換ポテンシャルを提供する。
いくつかの研究では、イメージジェネレータは特に攻撃を受けやすく、NSFW(Not Fitable For Work)コンテンツを生成することが示されている。
APIユーザからの攻撃をシミュレートするために,レトリバーを採用するブラックボックスステルスシープロンプトアタックを導入する。
論文 参考訳(メタデータ) (2024-02-23T09:28:16Z) - Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image
Retrieval and Generation [44.707144011189335]
我々は、安全でない作業概念に対する感受性を排除し、ビジョン・アンド・ランゲージモデルをより安全にする方法を紹介した。
安全な文と安全でない文を変換する大規模な言語モデルから、これを蒸留する方法を示す。
本研究では,画像検索とテキスト・ツー・イメージ生成の両面から得られる埋め込み空間について広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:02:17Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language
Models [60.03889043693601]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Red-Teaming the Stable Diffusion Safety Filter [5.683172456953383]
安全フィルタをバイパスする乱雑なコンテンツを容易に生成できることが示される。
将来のモデルリリースの安全性対策は、完全にオープンで適切に文書化されなければならない、と私たちは主張する。
論文 参考訳(メタデータ) (2022-10-03T14:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。