論文の概要: SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models'
Safety Filters
- arxiv url: http://arxiv.org/abs/2305.12082v2
- Date: Sat, 27 May 2023 23:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 00:00:48.155961
- Title: SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models'
Safety Filters
- Title(参考訳): sneakyprompt:テキスト対画像生成モデルの安全フィルタのロバスト性評価
- Authors: Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao
- Abstract要約: 一般的なプラクティスは、テキストまたはイメージ機能に基づいてNot-Safe-for-Work(NSFW)コンテンツをブロックするセーフティフィルタのデプロイである。
SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し、最先端のテキスト画像生成モデルにおける現実世界の安全フィルタの堅牢性を評価する。
SneakyPrompt はオンラインモデル DALL$cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。
- 参考スコア(独自算出の注目度): 11.195483138200169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E 2
have attracted much attention since their publication due to their wide
application in the real world. One challenging problem of text-to-image
generative models is the generation of Not-Safe-for-Work (NSFW) content, e.g.,
those related to violence and adult. Therefore, a common practice is to deploy
a so-called safety filter, which blocks NSFW content based on either text or
image features. Prior works have studied the possible bypass of such safety
filters. However, existing works are largely manual and specific to Stable
Diffusion's official safety filter. Moreover, the bypass ratio of Stable
Diffusion's safety filter is as low as 23.51% based on our evaluation.
In this paper, we propose the first automated attack framework, called
SneakyPrompt, to evaluate the robustness of real-world safety filters in
state-of-the-art text-to-image generative models. Our key insight is to search
for alternative tokens in a prompt that generates NSFW images so that the
generated prompt (called an adversarial prompt) bypasses existing safety
filters. Specifically, SneakyPrompt utilizes reinforcement learning (RL) to
guide an agent with positive rewards on semantic similarity and bypass success.
Our evaluation shows that SneakyPrompt successfully generated NSFW content
using an online model DALL$\cdot$E 2 with its default, closed-box safety filter
enabled. At the same time, we also deploy several open-source state-of-the-art
safety filters on a Stable Diffusion model and show that SneakyPrompt not only
successfully generates NSFW content, but also outperforms existing adversarial
attacks in terms of the number of queries and image qualities.
- Abstract(参考訳): Stable Diffusion や DALL$\cdot$E 2 のようなテキストから画像への生成モデルは、現実世界に広く応用されているため、出版以来多くの注目を集めている。
テキスト・ツー・イメージ・ジェネレーティブ・モデルの難しい問題のひとつは、暴力や成人に関連するものなど、Not-Safe-for-Work(NSFW)コンテンツの生成である。
したがって、一般的には、テキストまたは画像の特徴に基づいてNSFWコンテンツをブロックするいわゆるセーフティフィルタをデプロイする。
先行研究は、このような安全フィルタのバイパスの可能性を研究した。
しかし、既存の作品はほとんど手作業で、安定拡散の公式な安全フィルターに特化している。
また, 本評価では, 安定拡散フィルタのバイパス比が23.51%と低かった。
本稿では,SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し,最先端のテキスト画像生成モデルにおける実世界の安全フィルタの堅牢性を評価する。
我々のキーとなる洞察は、NSFW画像を生成するプロンプトで代替トークンを探すことで、生成されたプロンプト(対向プロンプトと呼ばれる)が既存の安全フィルタをバイパスする。
具体的には、SneakyPromptは強化学習(RL)を使用して、意味的類似性とバイパス成功に対する肯定的な報酬を持つエージェントを誘導する。
SneakyPrompt はオンラインモデル DALL$\cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。
同時に,sneapyprompt は nsfw コンテンツの生成を成功させるだけでなく,クエリ数や画像品質の面で既存の敵対的攻撃よりも優れていることを示す。
関連論文リスト
- SafeGen: Mitigating Unsafe Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、特に性的シナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。
テキスト・ツー・イメージ・モデルによる安全でないコンテンツ生成をテキストに依存しない方法で軽減するフレームワークであるSafeGenを提案する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - BSPA: Exploring Black-box Stealthy Prompt Attacks against Image
Generators [43.23698370787517]
大規模な画像生成装置は、様々な分野にわたって大きな変換ポテンシャルを提供する。
いくつかの研究では、イメージジェネレータは特に攻撃を受けやすく、NSFW(Not Fitable For Work)コンテンツを生成することが示されている。
APIユーザからの攻撃をシミュレートするために,レトリバーを採用するブラックボックスステルスシープロンプトアタックを導入する。
論文 参考訳(メタデータ) (2024-02-23T09:28:16Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Red-Teaming the Stable Diffusion Safety Filter [5.683172456953383]
安全フィルタをバイパスする乱雑なコンテンツを容易に生成できることが示される。
将来のモデルリリースの安全性対策は、完全にオープンで適切に文書化されなければならない、と私たちは主張する。
論文 参考訳(メタデータ) (2022-10-03T14:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。