論文の概要: When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
- arxiv url: http://arxiv.org/abs/2602.10179v1
- Date: Tue, 10 Feb 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.2226
- Title: When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
- Title(参考訳): Promptがビジュアルになったとき:大規模な画像編集モデルのための視覚中心のジェイルブレイク攻撃
- Authors: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang,
- Abstract要約: 本稿では,視覚的・視覚的ジェイルブレイク攻撃として視覚中心ジェイルブレイク攻撃(VJA)を提案する。
VJAは視覚入力を通じて悪意のある命令を純粋に伝達する。
イントロスペクティブなマルチモーダル推論に基づく無訓練防衛を提案する。
- 参考スコア(独自算出の注目度): 19.655310421085435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.
- Abstract(参考訳): 大規模な画像編集モデルの最近の進歩は、このパラダイムをテキスト駆動の命令から視覚プロンプト編集へとシフトさせ、そこでは、ユーザの意図を直接、マーク、矢印、視覚テキストプロンプトなどの視覚入力から推論する。
このパラダイムはユーザビリティを大幅に拡大する一方で、攻撃面自体が視覚的になるという、重要かつ過度に探索された安全性のリスクももたらします。
本研究では,視覚的入力によって悪意ある指示を純粋に伝達する最初の視覚的・視覚的ジェイルブレイク攻撃である視覚中心ジェイルブレイク攻撃(VJA)を提案する。
この新たな脅威を体系的に研究するために,画像編集モデルの安全性指向ベンチマークであるIESBenchを導入する。
IESBenchの大規模な実験により、VJAは最先端の商用モデルを効果的に侵害し、Nano Banana Proで80.9%、GPT-Image-1.5で70.1%の攻撃成功率を達成した。
この脆弱性を緩和するために, 補助ガードモデルや無視可能な計算オーバーヘッドを伴わず, 商業システムに匹敵するレベルの不整合モデルの安全性を大幅に向上する, イントロスペクティブ・マルチモーダル推論に基づくトレーニングフリーディフェンスを提案する。
我々の発見は新たな脆弱性を明らかにし、安全で信頼性の高い現代画像編集システムを進歩させるために、ベンチマークと実用的な防御の両方を提供する。
警告: 大規模な画像編集モデルによって生成された攻撃的な画像を含む。
関連論文リスト
- Robustness of Vision Language Models Against Split-Image Harmful Input Attacks [4.937150501683971]
VLM(Vision-Language Models)は現在、現代AIの中核部分となっている。
最近の研究では、単一/全体像を用いた視覚的ジェイルブレイク攻撃が提案されている。
本稿では,この誤認識を生かした新しい分割画像視覚ジェイルブレイク攻撃(SIVA)を提案する。
論文 参考訳(メタデータ) (2026-02-08T21:52:42Z) - Jailbreaks on Vision Language Model via Multimodal Reasoning [10.066621451320792]
本稿では,安全フィルタをバイパスできるステルスシープロンプトの構築を促す,ポストトレーニングのChain-of-Thoughtを利用したフレームワークを提案する。
また,モデルフィードバックに基づいて反復的に入力画像を摂動するReAct型適応雑音発生機構を提案する。
論文 参考訳(メタデータ) (2026-01-29T23:09:24Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。