論文の概要: SneakyPrompt: Jailbreaking Text-to-image Generative Models
- arxiv url: http://arxiv.org/abs/2305.12082v3
- Date: Fri, 10 Nov 2023 19:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:51:11.025135
- Title: SneakyPrompt: Jailbreaking Text-to-image Generative Models
- Title(参考訳): SneakyPrompt: テキストから画像生成モデルへの脱獄
- Authors: Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao
- Abstract要約: 我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
- 参考スコア(独自算出の注目度): 20.645304189835944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E
raise many ethical concerns due to the generation of harmful images such as
Not-Safe-for-Work (NSFW) ones. To address these ethical concerns, safety
filters are often adopted to prevent the generation of NSFW images. In this
work, we propose SneakyPrompt, the first automated attack framework, to
jailbreak text-to-image generative models such that they generate NSFW images
even if safety filters are adopted. Given a prompt that is blocked by a safety
filter, SneakyPrompt repeatedly queries the text-to-image generative model and
strategically perturbs tokens in the prompt based on the query results to
bypass the safety filter. Specifically, SneakyPrompt utilizes reinforcement
learning to guide the perturbation of tokens. Our evaluation shows that
SneakyPrompt successfully jailbreaks DALL$\cdot$E 2 with closed-box safety
filters to generate NSFW images. Moreover, we also deploy several
state-of-the-art, open-source safety filters on a Stable Diffusion model. Our
evaluation shows that SneakyPrompt not only successfully generates NSFW images,
but also outperforms existing text adversarial attacks when extended to
jailbreak text-to-image generative models, in terms of both the number of
queries and qualities of the generated NSFW images. SneakyPrompt is open-source
and available at this repository:
\url{https://github.com/Yuchen413/text2image_safety}.
- Abstract(参考訳): 安定拡散やDALL$\cdot$Eのようなテキストから画像への生成モデルは、Not-Safe-for-Work(NSFW)のような有害な画像を生成するため、多くの倫理的懸念を提起する。
これらの倫理的懸念に対処するために、NSFW画像の生成を防ぐための安全フィルタがしばしば採用されている。
本研究では,安全フィルタを適用してもNSFW画像を生成するようなジェイルブレイクテキスト・イメージ生成モデルに対して,最初の自動攻撃フレームワークであるSneakyPromptを提案する。
安全フィルタによってブロックされたプロンプトが与えられると、sneapypromptはテキストから画像への生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
具体的には、SneakyPromptは強化学習を利用してトークンの摂動を誘導する。
SneakyPromptは,NSFW画像を生成するクローズドボックスセーフフィルタを用いてDALL$\cdot$E 2のジェイルブレイクに成功した。
さらに,安定拡散モデル上には,最先端のオープンソース安全フィルタを複数配置する。
SneakyPrompt は NSFW 画像の生成に成功しているだけでなく,生成した NSFW 画像のクエリ数と品質の両面から,jailbreak テキスト・ツー・イメージ生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
sneakypromptはオープンソースであり、このリポジトリで利用可能である。
関連論文リスト
- Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images [5.150015329535525]
我々は、画像内に埋め込まれたNSFWテキストの生成という、新たな脅威を識別する。
これには侮辱、人種的暴行、性的暴行といった攻撃的な言葉が含まれる。
既存の緩和技術は、テキスト生成を著しく劣化させながら有害なテキスト生成を防ぐことができない。
この領域の研究を進めるために、画像中のNSFWテキスト生成を評価するためのオープンソースのベンチマークであるToxicBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-07T16:39:39Z) - CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Buster: Implanting Semantic Backdoor into Text Encoder to Mitigate NSFW Content Generation [15.703408347981776]
NSFWコンテンツ生成を防止するために,テキストエンコーダにバックドアを注入するTextitBusterという革新的なフレームワークを提案する。
Busterは明示的なプロンプトではなく深いセマンティック情報を活用し、NSFWプロンプトをターゲットの良性プロンプトにリダイレクトする。
実験の結果,バスターは9つの最先端ベースラインを上回り,少なくとも91.2%のNSFW除去率を達成できた。
論文 参考訳(メタデータ) (2024-12-10T07:18:51Z) - Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [43.67831238116829]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
テストされたすべてのモデルはこの種のジェイルブレイクに悩まされており、安全でない世代の割合は8%から74%である。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。