論文の概要: MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2601.07141v1
- Date: Mon, 12 Jan 2026 02:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.180789
- Title: MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models
- Title(参考訳): MacPrompt: テキストと画像のモデルに対するマラコニック誘導のジェイルブレイク
- Authors: Xi Ye, Yiwen Liu, Lina Wang, Run Wang, Geying Yang, Yufei Hou, Jiayi Yu,
- Abstract要約: 我々は、新しいブラックボックスとクロスランガル攻撃であるMacPromptを紹介し、これまで見過ごされていたT2Iの安全性メカニズムの脆弱性を明らかにする。
MacPromptは、有害な用語の言語間文字レベルの組換えを実行することで、逆のプロンプトを構築する。
性的関係のあるコンテンツでは92%、暴力では90%の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 21.21184947590066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models have raised increasing safety concerns due to their capacity to generate NSFW and other banned objects. To mitigate these risks, safety filters and concept removal techniques have been introduced to block inappropriate prompts or erase sensitive concepts from the models. However, all the existing defense methods are not well prepared to handle diverse adversarial prompts. In this work, we introduce MacPrompt, a novel black-box and cross-lingual attack that reveals previously overlooked vulnerabilities in T2I safety mechanisms. Unlike existing attacks that rely on synonym substitution or prompt obfuscation, MacPrompt constructs macaronic adversarial prompts by performing cross-lingual character-level recombination of harmful terms, enabling fine-grained control over both semantics and appearance. By leveraging this design, MacPrompt crafts prompts with high semantic similarity to the original harmful inputs (up to 0.96) while bypassing major safety filters (up to 100%). More critically, it achieves attack success rates as high as 92% for sex-related content and 90% for violence, effectively breaking even state-of-the-art concept removal defenses. These results underscore the pressing need to reassess the robustness of existing T2I safety mechanisms against linguistically diverse and fine-grained adversarial strategies.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、NSFWや他の禁止されたオブジェクトを生成する能力のため、安全性の懸念が高まっている。
これらのリスクを軽減するため、モデルから不適切なプロンプトをブロックしたり、センシティブな概念を消去するために、安全フィルタと概念除去技術が導入されている。
しかし、既存の防御方法は、多様な敵のプロンプトを扱うのに十分な準備が整っていない。
本研究では,従来見過ごされていたT2Iの安全性機構の脆弱性を明らかにする新しいブラックボックスとクロスランガル攻撃であるMacPromptを紹介する。
同義語置換や急激な難読化に依存する既存の攻撃とは異なり、MacPromptは有害な用語の言語間文字レベルの組換えを行うことで、意味論と外見の両方をきめ細かく制御することで、マカロニックな敵のプロンプトを構築する。
この設計を活用することで、MacPromptのクラフトは、主要な安全フィルタ(最大100%)をバイパスしながら、元の有害な入力(最大0.96)と高いセマンティックな類似性を促進できる。
さらに重要なことは、セックス関連のコンテンツで92%、暴力で90%の攻撃成功率を達成することで、最先端のコンセプト削除防衛さえも効果的に破壊する。
これらの結果は,既存のT2Iの安全性機構が言語学的に多様かつきめ細かな敵戦略に対して頑健であることの再評価の必要性を強調している。
関連論文リスト
- Metaphor-based Jailbreaking Attacks on Text-to-Image Models [41.420325236578755]
textbfMJA は textbfmetaphor ベースの textbfjailbreaking textbf attack method で、Taboo ゲームにインスパイアされた。
様々な防御機構を事前に知ることなく効果的に攻撃する。
論文 参考訳(メタデータ) (2025-12-06T12:38:00Z) - Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models [73.43013217318965]
マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
論文 参考訳(メタデータ) (2025-09-21T11:22:32Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - TokenProber: Jailbreaking Text-to-image Models via Fine-grained Word Impact Analysis [19.73325740171627]
感性認識型差分テストのためのTokenProberを提案する。
我々のアプローチは、T2Iモデルとセーフティチェッカーがセンシティブなコンテンツをどう解釈するかの相違を利用して、敵がしばしば成功するという重要な観察に基づいている。
324 NSFWプロンプトを用いた3つのT2Iモデル上での5つの安全チェッカーに対するTokenProberの評価は,その優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-11T06:32:33Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。