論文の概要: Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2509.21360v1
- Date: Sun, 21 Sep 2025 11:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.8683
- Title: Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models
- Title(参考訳): テキスト・画像モデルにおける安全フィルタのマルチモーダルプロンプトデカップリング攻撃
- Authors: Xingkai Peng, Jun Jiang, Meng Tong, Shuai Li, Weiming Zhang, Nenghai Yu, Kejiang Chen,
- Abstract要約: マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
- 参考スコア(独自算出の注目度): 73.43013217318965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models have been widely applied in generating high-fidelity images across various domains. However, these models may also be abused to produce Not-Safe-for-Work (NSFW) content via jailbreak attacks. Existing jailbreak methods primarily manipulate the textual prompt, leaving potential vulnerabilities in image-based inputs largely unexplored. Moreover, text-based methods face challenges in bypassing the model's safety filters. In response to these limitations, we propose the Multimodal Prompt Decoupling Attack (MPDA), which utilizes image modality to separate the harmful semantic components of the original unsafe prompt. MPDA follows three core steps: firstly, a large language model (LLM) decouples unsafe prompts into pseudo-safe prompts and harmful prompts. The former are seemingly harmless sub-prompts that can bypass filters, while the latter are sub-prompts with unsafe semantics that trigger filters. Subsequently, the LLM rewrites the harmful prompts into natural adversarial prompts to bypass safety filters, which guide the T2I model to modify the base image into an NSFW output. Finally, to ensure semantic consistency between the generated NSFW images and the original unsafe prompts, the visual language model generates image captions, providing a new pathway to guide the LLM in iterative rewriting and refining the generated content.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、様々な領域にわたる高忠実度画像の生成に広く応用されている。
しかし、これらのモデルは、脱獄攻撃を通じてNot-Safe-for-Work(NSFW)コンテンツを生成するために悪用される可能性がある。
既存のjailbreakメソッドは、主にテキストプロンプトを操作しており、画像ベースの入力の潜在的な脆弱性はほとんど探索されていない。
さらに、テキストベースの手法は、モデルの安全フィルタをバイパスする際の課題に直面している。
これらの制約に対応するために、画像のモダリティを利用して、元の安全でないプロンプトの有害な意味成分を分離するマルチモーダル・プロンプト・デカップリング・アタック(MPDA)を提案する。
第一に、大きな言語モデル(LLM)は、安全でないプロンプトを疑似安全プロンプトと有害なプロンプトに分離する。
前者はフィルタをバイパスできる一見無害なサブプロンプトであり、後者はフィルタをトリガーする安全でないセマンティクスを持つサブプロンプトである。
その後、LLMは有害なプロンプトを自然敵に書き直し、安全フィルタをバイパスし、T2IモデルにベースイメージをNSFW出力に修正するよう誘導する。
最後に、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために、視覚言語モデルが画像キャプションを生成し、生成したコンテンツを反復的に書き直し、精製する際にLLMをガイドする新たな経路を提供する。
関連論文リスト
- Iterative Prompt Refinement for Safer Text-to-Image Generation [4.174845397893041]
既存の安全手法は、大言語モデル(LLM)を用いて、通常、プロンプトを洗練させる。
本稿では、視覚言語モデル(VLM)を用いて、入力プロンプトと生成された画像の両方を解析する反復的プロンプト改善アルゴリズムを提案する。
提案手法は,ユーザの意図と整合性を損なうことなく,より安全なT2Iコンテンツを生成するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-17T07:16:06Z) - NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation [47.03824997129498]
大きな言語モデルの"jailbreak"攻撃は、微妙な迅速な修正を通じて制限をバイパスする。
PromptSanは、モデルアーキテクチャを変更することなく有害なプロンプトを解毒するための新しいアプローチである。
PromptSanは、複数のメトリクスにわたる有害なコンテンツ生成を減らすことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-23T06:17:30Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models [38.45239843869313]
テキスト・ツー・イメージ(T2I)モデルは、テキスト記述から高品質な画像を生成する際、顕著な性能を示した。
T2Iモデルは、特にNSFW(Not-safe-for-work)コンテンツを生成する誤用に対して脆弱である。
本稿では,大規模言語モデルにおけるシステムプロンプト機構からインスピレーションを得る新しいコンテンツモデレーション手法であるPromptGuardを紹介する。
論文 参考訳(メタデータ) (2025-01-07T05:39:21Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。