論文の概要: Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2509.21360v1
- Date: Sun, 21 Sep 2025 11:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.8683
- Title: Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models
- Title(参考訳): テキスト・画像モデルにおける安全フィルタのマルチモーダルプロンプトデカップリング攻撃
- Authors: Xingkai Peng, Jun Jiang, Meng Tong, Shuai Li, Weiming Zhang, Nenghai Yu, Kejiang Chen,
- Abstract要約: マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
- 参考スコア(独自算出の注目度): 73.43013217318965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models have been widely applied in generating high-fidelity images across various domains. However, these models may also be abused to produce Not-Safe-for-Work (NSFW) content via jailbreak attacks. Existing jailbreak methods primarily manipulate the textual prompt, leaving potential vulnerabilities in image-based inputs largely unexplored. Moreover, text-based methods face challenges in bypassing the model's safety filters. In response to these limitations, we propose the Multimodal Prompt Decoupling Attack (MPDA), which utilizes image modality to separate the harmful semantic components of the original unsafe prompt. MPDA follows three core steps: firstly, a large language model (LLM) decouples unsafe prompts into pseudo-safe prompts and harmful prompts. The former are seemingly harmless sub-prompts that can bypass filters, while the latter are sub-prompts with unsafe semantics that trigger filters. Subsequently, the LLM rewrites the harmful prompts into natural adversarial prompts to bypass safety filters, which guide the T2I model to modify the base image into an NSFW output. Finally, to ensure semantic consistency between the generated NSFW images and the original unsafe prompts, the visual language model generates image captions, providing a new pathway to guide the LLM in iterative rewriting and refining the generated content.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、様々な領域にわたる高忠実度画像の生成に広く応用されている。
しかし、これらのモデルは、脱獄攻撃を通じてNot-Safe-for-Work(NSFW)コンテンツを生成するために悪用される可能性がある。
既存のjailbreakメソッドは、主にテキストプロンプトを操作しており、画像ベースの入力の潜在的な脆弱性はほとんど探索されていない。
さらに、テキストベースの手法は、モデルの安全フィルタをバイパスする際の課題に直面している。
これらの制約に対応するために、画像のモダリティを利用して、元の安全でないプロンプトの有害な意味成分を分離するマルチモーダル・プロンプト・デカップリング・アタック(MPDA)を提案する。
第一に、大きな言語モデル(LLM)は、安全でないプロンプトを疑似安全プロンプトと有害なプロンプトに分離する。
前者はフィルタをバイパスできる一見無害なサブプロンプトであり、後者はフィルタをトリガーする安全でないセマンティクスを持つサブプロンプトである。
その後、LLMは有害なプロンプトを自然敵に書き直し、安全フィルタをバイパスし、T2IモデルにベースイメージをNSFW出力に修正するよう誘導する。
最後に、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために、視覚言語モデルが画像キャプションを生成し、生成したコンテンツを反復的に書き直し、精製する際にLLMをガイドする新たな経路を提供する。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Iterative Prompt Refinement for Safer Text-to-Image Generation [4.174845397893041]
既存の安全手法は、大言語モデル(LLM)を用いて、通常、プロンプトを洗練させる。
本稿では、視覚言語モデル(VLM)を用いて、入力プロンプトと生成された画像の両方を解析する反復的プロンプト改善アルゴリズムを提案する。
提案手法は,ユーザの意図と整合性を損なうことなく,より安全なT2Iコンテンツを生成するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-17T07:16:06Z) - NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation [47.03824997129498]
大きな言語モデルの"jailbreak"攻撃は、微妙な迅速な修正を通じて制限をバイパスする。
PromptSanは、モデルアーキテクチャを変更することなく有害なプロンプトを解毒するための新しいアプローチである。
PromptSanは、複数のメトリクスにわたる有害なコンテンツ生成を減らすことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-23T06:17:30Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization [19.44247617251449]
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
論文 参考訳(メタデータ) (2025-05-25T05:13:06Z) - SafeText: Safe Text-to-image Models via Aligning the Text Encoder [38.14026164194725]
テキスト・ツー・イメージモデルは、安全でないプロンプトが提示されたときに有害な画像を生成することができる。
拡散モジュールではなくテキストエンコーダを微調整する新しいアライメント手法であるSafeTextを提案する。
以上の結果から,SafeTextは画像に小さな影響を与えない有害な画像生成を効果的に防止し,安全なプロンプトを可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-02-28T01:02:57Z) - PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models [38.45239843869313]
テキスト・ツー・イメージ(T2I)モデルは、テキスト記述から高品質な画像を生成する際、顕著な性能を示した。
T2Iモデルは、特にNSFW(Not-safe-for-work)コンテンツを生成する誤用に対して脆弱である。
本稿では,大規模言語モデルにおけるシステムプロンプト機構からインスピレーションを得る新しいコンテンツモデレーション手法であるPromptGuardを紹介する。
論文 参考訳(メタデータ) (2025-01-07T05:39:21Z) - Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - SneakyPrompt: Jailbreaking Text-to-image Generative Models [20.645304189835944]
我々は,最初の自動攻撃フレームワークであるSneakyPromptをジェイルブレイクテキスト画像生成モデルに提案する。
安全フィルタによってブロックされるプロンプトを与えられたSneakyPromptは、テキスト・ツー・イメージ生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。
評価の結果,SneakyPromptはNSFW画像の生成に成功しているだけでなく,jailbreakテキスト・画像生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。