論文の概要: JANUS: A Lightweight Framework for Jailbreaking Text-to-Image Models via Distribution Optimization
- arxiv url: http://arxiv.org/abs/2603.21208v1
- Date: Sun, 22 Mar 2026 13:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.292288
- Title: JANUS: A Lightweight Framework for Jailbreaking Text-to-Image Models via Distribution Optimization
- Title(参考訳): JANUS:分散最適化によるテキスト・画像モデルのジェイルブレークのための軽量フレームワーク
- Authors: Haolun Zheng, Yu He, Tailun Chen, Shuo Shao, Zhixuan Chu, Hongbin Zhou, Lan Tao, Zhan Qin, Kui Ren,
- Abstract要約: 既存のjailbreak攻撃は、真のエンドツーエンドの目的ではなく、プロキシ-ロス最適化に依存している。
Janusは、ブラックボックスの下で構造化されたプロンプト配布の最適化としてジェイルブレイクを定式化する軽量フレームワークである。
Janusはオープンソースと商用の両方で成功している。
- 参考スコア(独自算出の注目度): 44.61436027756776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models such as Stable Diffusion and DALLE remain susceptible to generating harmful or Not-Safe-For-Work (NSFW) content under jailbreak attacks despite deployed safety filters. Existing jailbreak attacks either rely on proxy-loss optimization instead of the true end-to-end objective, or depend on large-scale and costly RL-trained generators. Motivated by these limitations, we propose JANUS , a lightweight framework that formulates jailbreak as optimizing a structured prompt distribution under a black-box, end-to-end reward from the T2I system and its safety filters. JANUS replaces a high-capacity generator with a low-dimensional mixing policy over two semantically anchored prompt distributions, enabling efficient exploration while preserving the target semantics. On modern T2I models, we outperform state-of-the-art jailbreak methods, improving ASR-8 from 25.30% to 43.15% on Stable Diffusion 3.5 Large Turbo with consistently higher CLIP and NSFW scores. JANUS succeeds across both open-source and commercial models. These findings expose structural weaknesses in current T2I safety pipelines and motivate stronger, distribution-aware defenses. Warning: This paper contains model outputs that may be offensive.
- Abstract(参考訳): 安定拡散(Stable Diffusion)やDALLE(DALLE)のようなT2I(Text-to-image)モデルは、安全なフィルタが配置されているにもかかわらず、ジェイルブレイク攻撃下で有害またはNot-Safe-For-Work(NSFW)コンテンツを生成する可能性がある。
既存のjailbreak攻撃は、真のエンドツーエンドの目的ではなくプロキシ-ロス最適化に依存しているか、大規模で高価なRL訓練されたジェネレータに依存している。
これらの制約に感化されたJANUSは、T2Iシステムとその安全フィルタによるエンドツーエンドの報酬であるブラックボックス下での構造化されたプロンプト分布の最適化としてジェイルブレイクを定式化する軽量フレームワークである。
JANUSは、高容量ジェネレータを2つのセマンティックに固定されたプロンプト分布に低次元の混合ポリシーで置き換え、ターゲットセマンティクスを保存しながら効率的な探索を可能にする。
最新のT2Iモデルでは、ASR-8を25.30%から43.15%に改善した。
JANUSはオープンソースと商用の両方で成功している。
これらの知見は、現在のT2I安全パイプラインの構造的弱点を明らかにし、より強く分布に配慮した防御を動機付けている。
警告: 本論文は、攻撃的かもしれないモデル出力を含む。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Multimodal Pragmatic Jailbreak on Text-to-image Models [42.53834190690214]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。
我々は、2つのクローズドソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。
我々の研究は、よりセキュアで信頼性の高いT2Iモデルに向けたさらなる開発基盤を提供する。
論文 参考訳(メタデータ) (2024-09-27T21:23:46Z) - Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。
自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。
クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文 参考訳(メタデータ) (2024-08-01T12:54:46Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。