論文の概要: SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models'
Safety Filters
- arxiv url: http://arxiv.org/abs/2305.12082v2
- Date: Sat, 27 May 2023 23:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 00:00:48.155961
- Title: SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models'
Safety Filters
- Title(参考訳): sneakyprompt:テキスト対画像生成モデルの安全フィルタのロバスト性評価
- Authors: Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao
- Abstract要約: 一般的なプラクティスは、テキストまたはイメージ機能に基づいてNot-Safe-for-Work(NSFW)コンテンツをブロックするセーフティフィルタのデプロイである。
SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し、最先端のテキスト画像生成モデルにおける現実世界の安全フィルタの堅牢性を評価する。
SneakyPrompt はオンラインモデル DALL$cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。
- 参考スコア(独自算出の注目度): 11.195483138200169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E 2
have attracted much attention since their publication due to their wide
application in the real world. One challenging problem of text-to-image
generative models is the generation of Not-Safe-for-Work (NSFW) content, e.g.,
those related to violence and adult. Therefore, a common practice is to deploy
a so-called safety filter, which blocks NSFW content based on either text or
image features. Prior works have studied the possible bypass of such safety
filters. However, existing works are largely manual and specific to Stable
Diffusion's official safety filter. Moreover, the bypass ratio of Stable
Diffusion's safety filter is as low as 23.51% based on our evaluation.
In this paper, we propose the first automated attack framework, called
SneakyPrompt, to evaluate the robustness of real-world safety filters in
state-of-the-art text-to-image generative models. Our key insight is to search
for alternative tokens in a prompt that generates NSFW images so that the
generated prompt (called an adversarial prompt) bypasses existing safety
filters. Specifically, SneakyPrompt utilizes reinforcement learning (RL) to
guide an agent with positive rewards on semantic similarity and bypass success.
Our evaluation shows that SneakyPrompt successfully generated NSFW content
using an online model DALL$\cdot$E 2 with its default, closed-box safety filter
enabled. At the same time, we also deploy several open-source state-of-the-art
safety filters on a Stable Diffusion model and show that SneakyPrompt not only
successfully generates NSFW content, but also outperforms existing adversarial
attacks in terms of the number of queries and image qualities.
- Abstract(参考訳): Stable Diffusion や DALL$\cdot$E 2 のようなテキストから画像への生成モデルは、現実世界に広く応用されているため、出版以来多くの注目を集めている。
テキスト・ツー・イメージ・ジェネレーティブ・モデルの難しい問題のひとつは、暴力や成人に関連するものなど、Not-Safe-for-Work(NSFW)コンテンツの生成である。
したがって、一般的には、テキストまたは画像の特徴に基づいてNSFWコンテンツをブロックするいわゆるセーフティフィルタをデプロイする。
先行研究は、このような安全フィルタのバイパスの可能性を研究した。
しかし、既存の作品はほとんど手作業で、安定拡散の公式な安全フィルターに特化している。
また, 本評価では, 安定拡散フィルタのバイパス比が23.51%と低かった。
本稿では,SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し,最先端のテキスト画像生成モデルにおける実世界の安全フィルタの堅牢性を評価する。
我々のキーとなる洞察は、NSFW画像を生成するプロンプトで代替トークンを探すことで、生成されたプロンプト(対向プロンプトと呼ばれる)が既存の安全フィルタをバイパスする。
具体的には、SneakyPromptは強化学習(RL)を使用して、意味的類似性とバイパス成功に対する肯定的な報酬を持つエージェントを誘導する。
SneakyPrompt はオンラインモデル DALL$\cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。
同時に,sneapyprompt は nsfw コンテンツの生成を成功させるだけでなく,クエリ数や画像品質の面で既存の敵対的攻撃よりも優れていることを示す。
関連論文リスト
- Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images [5.150015329535525]
我々は、画像内に埋め込まれたNSFWテキストの生成という、新たな脅威を識別する。
これには侮辱、人種的暴行、性的暴行といった攻撃的な言葉が含まれる。
既存の緩和技術は、テキスト生成を著しく劣化させながら有害なテキスト生成を防ぐことができない。
この領域の研究を進めるために、画像中のNSFWテキスト生成を評価するためのオープンソースのベンチマークであるToxicBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-07T16:39:39Z) - CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Buster: Implanting Semantic Backdoor into Text Encoder to Mitigate NSFW Content Generation [15.703408347981776]
NSFWコンテンツ生成を防止するために,テキストエンコーダにバックドアを注入するTextitBusterという革新的なフレームワークを提案する。
Busterは明示的なプロンプトではなく深いセマンティック情報を活用し、NSFWプロンプトをターゲットの良性プロンプトにリダイレクトする。
実験の結果,バスターは9つの最先端ベースラインを上回り,少なくとも91.2%のNSFW除去率を達成できた。
論文 参考訳(メタデータ) (2024-12-10T07:18:51Z) - Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。