論文の概要: Jailbreaking Vision-Language Models Through the Visual Modality
- arxiv url: http://arxiv.org/abs/2605.00583v1
- Date: Fri, 01 May 2026 11:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.937091
- Title: Jailbreaking Vision-Language Models Through the Visual Modality
- Title(参考訳): 視覚的モダリティによる視覚境界モデルの脱獄
- Authors: Aharon Azulay, Jan Dubiński, Zhuoyun Li, Atharv Mittal, Yossi Gandelsman,
- Abstract要約: 視覚言語モデルの視覚成分を利用した4つのジェイルブレイク攻撃を導入する。
我々の攻撃は安全アライメントをバイパスし、モダリティ間のアライメントギャップを露呈する。
以上の結果から,堅牢なVLMアライメントは視覚を安全訓練の第一級ターゲットとして扱う必要があることが示唆された。
- 参考スコア(独自算出の注目度): 16.986459949629126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual modality of vision-language models (VLMs) is an underexplored attack surface for bypassing safety alignment. We introduce four jailbreak attacks exploiting the vision component: (1) encoding harmful instructions as visual symbol sequences with a decoding legend, (2) replacing harmful objects with benign substitutes (e.g., bomb -> banana) then prompting for harmful actions using the substitute term, (3) replacing harmful text in images (e.g., on book covers) with benign words while visual context preserves the original meaning, and (4) visual analogy puzzles whose solution requires inferring a prohibited concept. Evaluating across six frontier VLMs, our visual attacks bypass safety alignment and expose a cross-modality alignment gap: text-based safety training does not automatically generalize to harmful intent conveyed visually. For example, our visual cipher achieves 40.9% attack success on Claude-Haiku-4.5 versus 10.7% for an equivalent textual cipher. To further our insight into the attack mechanism, we present preliminary interpretability and mitigation results. These findings highlight that robust VLM alignment requires treating vision as a first-class target for safety post-training.
- Abstract(参考訳): 視覚言語モデルの視覚的モダリティ(VLM)は、安全アライメントをバイパスするための未探索の攻撃面である。
視覚成分を利用したジェイルブレイク攻撃は,(1) 視覚的シンボルシーケンスを復号伝説で符号化する,(2) 有害物体を良心的代名詞(例えば爆弾 ->バナナ)に置き換える,(3) 有害テキストを良心的単語で置き換える,(3) 視覚的コンテキストで本来の意味を記憶する,(4) 禁止概念の推論を必要とする視覚的類似パズルの4つを導入している。
テキストベースの安全性トレーニングは、視覚的に伝達される有害な意図に自動的に一般化するものではない。
例えば、我々の視覚暗号はクロード・ハイク4.5に対して40.9%の攻撃成功を達成するが、同等のテキスト暗号では10.7%である。
攻撃機構に関する洞察を深めるために,予備的解釈可能性と緩和効果を示す。
以上の結果から,堅牢なVLMアライメントは視覚を安全訓練の第一級ターゲットとして扱う必要があることが示唆された。
関連論文リスト
- VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models [57.128876964730644]
参照画像に映像生成を条件付けるI2V(Image-to-Video)生成モデルは、新たな視覚的指示追従能力を示す。
安全でないテキストプロンプトの悪意ある意図を、安全な参照画像の良心的な視覚的指示として偽装する、トレーニング不要で移動可能なジェイルブレイクフレームワークであるVisual Instruction Injection (VII)を提案する。
VIIは最大83.5%のアタック成功率を達成し、拒絶率をほぼゼロに抑え、既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:20:01Z) - Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection [31.1604742796343]
マルチモーダルな大規模言語モデル(MLLM)は、現実世界のアプリケーションにとって大きな可能性を実証している。
視覚的モダリティによって示されたセキュリティ脆弱性は、そのようなモデルをオープンな環境にデプロイする上で重大な課題となる。
視覚中心のジェイルブレイクコンテキストを構築する上で,視覚情報が必要なコンポーネントとして機能する視覚的コンテキストアタックを提案する。
論文 参考訳(メタデータ) (2025-07-03T17:53:12Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - ImgTrojan: Jailbreaking Vision-Language Models with ONE Image [37.80216561793555]
視覚言語モデル(VLM)に対する新しいジェイルブレイク攻撃を提案する。
トレーニングデータに有毒な(画像、テキスト)データペアを含めるシナリオが想定されます。
原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、この手法は毒画像を用いてジェイルブレイク攻撃を行うことができる。
論文 参考訳(メタデータ) (2024-03-05T12:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。