論文の概要: Low-Effort Jailbreak Attacks Against Text-to-Image Safety Filters
- arxiv url: http://arxiv.org/abs/2604.01888v1
- Date: Thu, 02 Apr 2026 10:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.690816
- Title: Low-Effort Jailbreak Attacks Against Text-to-Image Safety Filters
- Title(参考訳): テキスト・ツー・イメージ・セーフティ・フィルタに対するローエフォート・ジェイルブレイク攻撃
- Authors: Ahmed B Mustafa, Zihan Ye, Yang Lu, Michael P Pound, Shreyank N Gowda,
- Abstract要約: 現代のテキスト・ツー・イメージモデルは、自然言語のプロンプトのみを必要とする低便なジェイルブレイク攻撃に対して脆弱なままであることを示す。
本稿では,モデルアクセスや最適化,対向訓練を伴わずに安全フィルタを回避できるプロンプトベースの戦略の体系的研究を行う。
我々はこれらの攻撃を最先端のテキスト・ツー・イメージシステムで評価し、単純な言語修正が既存の安全対策を確実に回避できることを実証した。
- 参考スコア(独自算出の注目度): 17.105244809853907
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-image generative models are widely deployed in creative tools and online platforms. To mitigate misuse, these systems rely on safety filters and moderation pipelines that aim to block harmful or policy violating content. In this work we show that modern text-to-image models remain vulnerable to low-effort jailbreak attacks that require only natural language prompts. We present a systematic study of prompt-based strategies that bypass safety filters without model access, optimization, or adversarial training. We introduce a taxonomy of visual jailbreak techniques including artistic reframing, material substitution, pseudo-educational framing, lifestyle aesthetic camouflage, and ambiguous action substitution. These strategies exploit weaknesses in prompt moderation and visual safety filtering by masking unsafe intent within benign semantic contexts. We evaluate these attacks across several state-of-the-art text-to-image systems and demonstrate that simple linguistic modifications can reliably evade existing safeguards and produce restricted imagery. Our findings highlight a critical gap between surface-level prompt filtering and the semantic understanding required to detect adversarial intent in generative media systems. Across all tested models and attack categories we observe an attack success rate (ASR) of up to 74.47%.
- Abstract(参考訳): テキストから画像への生成モデルは、クリエイティブツールやオンラインプラットフォームに広くデプロイされている。
誤用を軽減するため、これらのシステムは有害またはポリシー違反のコンテンツを阻止することを目的とした安全フィルタとモデレーションパイプラインに依存している。
この研究で、現代のテキスト・ツー・イメージモデルは、自然言語のプロンプトだけを必要とする、低益なジェイルブレイク攻撃に対して脆弱なままであることを示す。
本稿では,モデルアクセスや最適化,対向訓練を伴わずに安全フィルタを回避できるプロンプトベースの戦略の体系的研究を行う。
視覚的ジェイルブレイク技術には,芸術的リフレーミング,物質置換,擬似教育的フレーミング,ライフスタイルの審美的カモフラージュ,曖昧な行動置換などが含まれる。
これらの戦略は、良質な意味的文脈内での安全でない意図を隠蔽することにより、迅速なモデレーションと視覚的安全フィルタリングの弱点を利用する。
我々は,これらの攻撃を最先端のテキスト・ツー・イメージシステムで評価し,既存の安全対策を確実に回避し,制限された画像を生成することを実証した。
本研究は, 生成メディアシステムにおいて, 表面レベルのプロンプトフィルタリングと, 敵対的意図を検出するのに必要な意味的理解との間には, 重大なギャップがあることを明らかにする。
全てのテストされたモデルと攻撃カテゴリで、攻撃成功率(ASR)は74.47%に達する。
関連論文リスト
- Jailbreaks on Vision Language Model via Multimodal Reasoning [10.066621451320792]
本稿では,安全フィルタをバイパスできるステルスシープロンプトの構築を促す,ポストトレーニングのChain-of-Thoughtを利用したフレームワークを提案する。
また,モデルフィードバックに基づいて反復的に入力画像を摂動するReAct型適応雑音発生機構を提案する。
論文 参考訳(メタデータ) (2026-01-29T23:09:24Z) - Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning [26.571996871795154]
iMIST (underlineinteractive underlineMulti-step underlineProgreunderlinessive underlineTool-disguised Jailbreak Attack) は、現在の防御機構の脆弱性を利用する新しい適応型ジェイルブレイク手法である。
広く使われているモデルの実験では、iMISTは低い拒絶率を維持しながら高い攻撃効果を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-09T01:41:39Z) - Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは 明らかに良心的な言語の中に 悪意のある意図を埋め込んで 既存の安全メカニズムを回避している
本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T19:57:38Z) - GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization [19.44247617251449]
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
論文 参考訳(メタデータ) (2025-05-25T05:13:06Z) - Jailbreaking Safeguarded Text-to-Image Models via Large Language Models [44.253924518111695]
安全ガードレールを用いたジェイルブレイク型テキスト・ツー・イメージモデルであるPromptTuneを提案する。
他のクエリベースのジェイルブレイク攻撃とは異なり、攻撃は攻撃LLMを微調整した後、敵のプロンプトを効率的に生成する。
提案手法は安全ガードレールを効果的に回避し,既存のno-box攻撃より優れ,クエリベースの攻撃も容易であることを示す。
論文 参考訳(メタデータ) (2025-03-03T18:58:46Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。