論文の概要: Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2604.05853v2
- Date: Wed, 08 Apr 2026 04:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.167042
- Title: Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models
- Title(参考訳): ピクセル間の読み上げ:テキストと画像のモデルに対するインクリメンタルなジェイルブレイク攻撃
- Authors: Zonghao Ying, Haowen Dai, Lianyu Hu, Zonglei Jing, Quanchen Zou, Yaodong Yang, Aishan Liu, Xianglong Liu,
- Abstract要約: 現代のテキスト・トゥ・イメージ(T2I)モデルでは、正当性のある段落長のテキストを描画できるようになった。
我々は、敵がT2Iシステムを強制して有害なテキストペイロードを含む画像を生成する、記述的ジェイルブレイクを識別し、形式化する。
敵のプロンプトを3つの機能層に分解するブラックボックス攻撃フレームワークであるEtchを提案する。
- 参考スコア(独自算出の注目度): 31.243185346527255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern text-to-image (T2I) models can now render legible, paragraph-length text, enabling a fundamentally new class of misuse. We identify and formalize the inscriptive jailbreak, where an adversary coerces a T2I system into generating images containing harmful textual payloads (e.g., fraudulent documents) embedded within visually benign scenes. Unlike traditional depictive jailbreaks that elicit visually objectionable imagery, inscriptive attacks weaponize the text-rendering capability itself. Because existing jailbreak techniques are designed for coarse visual manipulation, they struggle to bypass multi-stage safety filters while maintaining character-level fidelity. To expose this vulnerability, we propose Etch, a black-box attack framework that decomposes the adversarial prompt into three functionally orthogonal layers: semantic camouflage, visual-spatial anchoring, and typographic encoding. This decomposition reduces joint optimization over the full prompt space to tractable sub-problems, which are iteratively refined through a zero-order loop. In this process, a vision-language model critiques each generated image, localizes failures to specific layers, and prescribes targeted revisions. Extensive evaluations across 7 models on the 2 benchmarks demonstrate that Etch achieves an average attack success rate of 65.57% (peaking at 91.00%), significantly outperforming existing baselines. Our results reveal a critical blind spot in current T2I safety alignments and underscore the urgent need for typography-aware defense multimodal mechanisms.
- Abstract(参考訳): 現代のテキスト・トゥ・イメージ(T2I)モデルでは、正当性のある段落長のテキストを描画できるようになった。
我々は,敵対者がT2Iシステムを強制的に生成し,有害なテキストペイロード(例えば不正な文書)を視覚的な場面に埋め込んだ画像を生成する,記述的ジェイルブレイクを識別し,形式化する。
視覚的に不快なイメージを誘発する伝統的な描写されたジェイルブレイクとは異なり、インクリプティブアタックはテキストレンダリング機能自体を武器にしている。
既存のジェイルブレイク技術は粗い視覚操作のために設計されているため、キャラクタレベルの忠実さを維持しながら、多段安全フィルタをバイパスするのに苦労している。
この脆弱性を明らかにするために,敵対的プロンプトを3つの機能的直交層(セマンティックカモフラージュ,視覚空間アンカー,タイポグラフィエンコーディング)に分解するブラックボックス攻撃フレームワークであるEtchを提案する。
この分解により、全プロンプト空間上のジョイント最適化は、ゼロ次ループを通じて反復的に洗練されるトラクタブルなサブプロブレムに還元される。
このプロセスでは、視覚言語モデルが生成された各画像を批判し、特定のレイヤに障害をローカライズし、ターゲットとするリビジョンを処方する。
2つのベンチマークで7つのモデルに対して大規模な評価を行った結果、Etchは65.57%(91.00%)の攻撃成功率を達成し、既存のベースラインを著しく上回る結果となった。
以上の結果から,現在のT2I安全アライメントにおける重要な盲点が明らかとなり,タイポグラフィー対応型防衛マルチモーダル機構の緊急の必要性が浮き彫りになった。
関連論文リスト
- GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization [19.44247617251449]
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
論文 参考訳(メタデータ) (2025-05-25T05:13:06Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。