論文の概要: GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization
- arxiv url: http://arxiv.org/abs/2505.18979v1
- Date: Sun, 25 May 2025 05:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.806691
- Title: GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization
- Title(参考訳): GhostPrompt:動的最適化に基づくテキスト画像生成モデルのジェイルブレーク
- Authors: Zixuan Chen, Hao Lin, Ke Xu, Xinghao Jiang, Tanfeng Sun,
- Abstract要約: 動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
- 参考スコア(独自算出の注目度): 19.44247617251449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generation models can inadvertently produce not-safe-for-work (NSFW) content, prompting the integration of text and image safety filters. Recent advances employ large language models (LLMs) for semantic-level detection, rendering traditional token-level perturbation attacks largely ineffective. However, our evaluation shows that existing jailbreak methods are ineffective against these modern filters. We introduce GhostPrompt, the first automated jailbreak framework that combines dynamic prompt optimization with multimodal feedback. It consists of two key components: (i) Dynamic Optimization, an iterative process that guides a large language model (LLM) using feedback from text safety filters and CLIP similarity scores to generate semantically aligned adversarial prompts; and (ii) Adaptive Safety Indicator Injection, which formulates the injection of benign visual cues as a reinforcement learning problem to bypass image-level filters. GhostPrompt achieves state-of-the-art performance, increasing the ShieldLM-7B bypass rate from 12.5\% (Sneakyprompt) to 99.0\%, improving CLIP score from 0.2637 to 0.2762, and reducing the time cost by $4.2 \times$. Moreover, it generalizes to unseen filters including GPT-4.1 and successfully jailbreaks DALLE 3 to generate NSFW images in our evaluation, revealing systemic vulnerabilities in current multimodal defenses. To support further research on AI safety and red-teaming, we will release code and adversarial prompts under a controlled-access protocol.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルは不注意にNSFW(Not-safe-for-work)コンテンツを生成でき、テキストと画像の安全フィルタの統合を促す。
近年の進歩では、意味レベルの検出に大規模言語モデル(LLM)が採用されており、従来のトークンレベルの摂動攻撃はほとんど効果がない。
しかし, 既存のジェイルブレイク法は, 現代のフィルタに対して有効ではないことを示す。
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
主なコンポーネントは2つある。
(i)動的最適化(Dynamic Optimization) - テキストセーフティフィルタとCLIP類似度スコアからのフィードバックを用いて、大言語モデル(LLM)を誘導し、セマンティックに整合した逆のプロンプトを生成する反復的プロセス。
二 画像レベルのフィルタをバイパスする強化学習問題として良性視覚刺激の注入を定式化した適応安全指標注入
GhostPromptは最先端のパフォーマンスを達成し、ShielLM-7Bバイパスレートを12.5\% (Sneakyprompt) から99.0\%に引き上げ、CLIPスコアを0.2637から0.2762に改善し、時間コストを4.2 \times$に下げた。
さらに、GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成し、現在のマルチモーダルディフェンスにおけるシステム的脆弱性を明らかにする。
AIの安全性と再チームのさらなる研究を支援するため、制御されたアクセスプロトコルの下で、コードと敵のプロンプトをリリースします。
関連論文リスト
- Jailbreaking the Text-to-Video Generative Models [95.43898677860565]
本稿では,テキスト・ツー・ビデオモデルに対するテキストファースト最適化に基づくジェイルブレイク攻撃を提案する。
提案手法は3つの主目的を持つ最適化問題として即時生成タスクを定式化する。
われわれは、Open-Sora、Pika、Luma、Klingなど、複数のテキスト・ビデオ・モデルにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [27.32589928097192]
ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。