論文の概要: Universally Unfiltered and Unseen:Input-Agnostic Multimodal Jailbreaks against Text-to-Image Model Safeguards
- arxiv url: http://arxiv.org/abs/2508.05658v2
- Date: Mon, 11 Aug 2025 10:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:53.856146
- Title: Universally Unfiltered and Unseen:Input-Agnostic Multimodal Jailbreaks against Text-to-Image Model Safeguards
- Title(参考訳): ユニバーサル・アンフィルター・アンロック:テキスト・ツー・イメージ・モデル保護に対する入力非依存型マルチモーダル・ジェイルブレイク
- Authors: Song Yan, Hui Wei, Jinlong Fei, Guoliang Yang, Zhengyu Zhao, Zheng Wang,
- Abstract要約: 我々は,T2Iの保護者に対するマルチモーダルジェイルブレイク攻撃手法であるUniversally Unfiltered and Unseen (U3)-Attackを提案する。
われわれのU3-Attackは、最先端のマルチモーダルジェイルブレイク攻撃であるMMA-Diffusionよりも4倍高い成功率を達成した。
- 参考スコア(独自算出の注目度): 8.075914295122676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various (text) prompt filters and (image) safety checkers have been implemented to mitigate the misuse of Text-to-Image (T2I) models in creating Not-Safe-For-Work (NSFW) content. In order to expose potential security vulnerabilities of such safeguards, multimodal jailbreaks have been studied. However, existing jailbreaks are limited to prompt-specific and image-specific perturbations, which suffer from poor scalability and time-consuming optimization. To address these limitations, we propose Universally Unfiltered and Unseen (U3)-Attack, a multimodal jailbreak attack method against T2I safeguards. Specifically, U3-Attack optimizes an adversarial patch on the image background to universally bypass safety checkers and optimizes a safe paraphrase set from a sensitive word to universally bypass prompt filters while eliminating redundant computations. Extensive experimental results demonstrate the superiority of our U3-Attack on both open-source and commercial T2I models. For example, on the commercial Runway-inpainting model with both prompt filter and safety checker, our U3-Attack achieves $~4\times$ higher success rates than the state-of-the-art multimodal jailbreak attack, MMA-Diffusion.
- Abstract(参考訳): 各種(テキスト)プロンプトフィルタと(画像)セーフチェッカーが実装され、Not-Safe-For-Work(NSFW)コンテンツ作成におけるText-to-Image(T2I)モデルの誤用を軽減している。
このような安全ガードの潜在的なセキュリティ脆弱性を明らかにするため、マルチモーダル・ジェイルブレイクが研究されている。
しかし、既存のjailbreakは、スケーラビリティの低下と時間を要する、プロンプト固有の、イメージ固有の摂動に限られている。
これらの制約に対処するため,T2Iの保護者に対するマルチモーダルジェイルブレイク攻撃法であるUniversally Unfiltered and Unseen (U3)-Attackを提案する。
特に、U3-Attackは画像背景の敵パッチを最適化し、安全チェックを普遍的にバイパスし、センシティブな単語から設定された安全なパラフレーズを最適化し、冗長な計算を排除しながらプロンプトフィルタを普遍的にバイパスする。
オープンソースおよび商用T2IモデルにおけるU3-Attackの優位性を示した。
例えば、プロンプトフィルタと安全チェックの両方を備えた商用のRunway-inpaintingモデルでは、我々のU3-Attackは、最先端のマルチモーダルジェイルブレイク攻撃であるMMA-Diffusionよりも、$~4\times$高い成功率を達成した。
関連論文リスト
- Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization [19.44247617251449]
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
論文 参考訳(メタデータ) (2025-05-25T05:13:06Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [42.53834190690214]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
我々は、2つのクローズドソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
我々の研究は、よりセキュアで信頼性の高いT2Iモデルに向けたさらなる開発基盤を提供する。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。