論文の概要: SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models'
Safety Filters
- arxiv url: http://arxiv.org/abs/2305.12082v1
- Date: Sat, 20 May 2023 03:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:57:57.169129
- Title: SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models'
Safety Filters
- Title(参考訳): sneakyprompt:テキスト対画像生成モデルの安全フィルタのロバスト性評価
- Authors: Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao
- Abstract要約: 一般的なプラクティスは、テキストまたはイメージ機能に基づいてNot-Safe-for-Work(NSFW)コンテンツをブロックするセーフティフィルタのデプロイである。
SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し、最先端のテキスト画像生成モデルにおける現実世界の安全フィルタの堅牢性を評価する。
SneakyPrompt はオンラインモデル DALL$cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。
- 参考スコア(独自算出の注目度): 11.195483138200169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E 2
have attracted much attention since their publication due to their wide
application in the real world. One challenging problem of text-to-image
generative models is the generation of Not-Safe-for-Work (NSFW) content, e.g.,
those related to violence and adult. Therefore, a common practice is to deploy
a so-called safety filter, which blocks NSFW content based on either text or
image features. Prior works have studied the possible bypass of such safety
filters. However, existing works are largely manual and specific to Stable
Diffusion's official safety filter. Moreover, the bypass ratio of Stable
Diffusion's safety filter is as low as 23.51% based on our evaluation.
In this paper, we propose the first automated attack framework, called
SneakyPrompt, to evaluate the robustness of real-world safety filters in
state-of-the-art text-to-image generative models. Our key insight is to search
for alternative tokens in a prompt that generates NSFW images so that the
generated prompt (called an adversarial prompt) bypasses existing safety
filters. Specifically, SneakyPrompt utilizes reinforcement learning (RL) to
guide an agent with positive rewards on semantic similarity and bypass success.
Our evaluation shows that SneakyPrompt successfully generated NSFW content
using an online model DALL$\cdot$E 2 with its default, closed-box safety filter
enabled. At the same time, we also deploy several open-source state-of-the-art
safety filters on a Stable Diffusion model and show that SneakyPrompt not only
successfully generates NSFW content, but also outperforms existing adversarial
attacks in terms of the number of queries and image qualities.
- Abstract(参考訳): Stable Diffusion や DALL$\cdot$E 2 のようなテキストから画像への生成モデルは、現実世界に広く応用されているため、出版以来多くの注目を集めている。
テキスト・ツー・イメージ・ジェネレーティブ・モデルの難しい問題のひとつは、暴力や成人に関連するものなど、Not-Safe-for-Work(NSFW)コンテンツの生成である。
したがって、一般的には、テキストまたは画像の特徴に基づいてNSFWコンテンツをブロックするいわゆるセーフティフィルタをデプロイする。
先行研究は、このような安全フィルタのバイパスの可能性を研究した。
しかし、既存の作品はほとんど手作業で、安定拡散の公式な安全フィルターに特化している。
また, 本評価では, 安定拡散フィルタのバイパス比が23.51%と低かった。
本稿では,SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し,最先端のテキスト画像生成モデルにおける実世界の安全フィルタの堅牢性を評価する。
我々のキーとなる洞察は、NSFW画像を生成するプロンプトで代替トークンを探すことで、生成されたプロンプト(対向プロンプトと呼ばれる)が既存の安全フィルタをバイパスする。
具体的には、SneakyPromptは強化学習(RL)を使用して、意味的類似性とバイパス成功に対する肯定的な報酬を持つエージェントを誘導する。
SneakyPrompt はオンラインモデル DALL$\cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。
同時に,sneapyprompt は nsfw コンテンツの生成を成功させるだけでなく,クエリ数や画像品質の面で既存の敵対的攻撃よりも優れていることを示す。
関連論文リスト
- AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。