論文の概要: Text is All You Need for Vision-Language Model Jailbreaking
- arxiv url: http://arxiv.org/abs/2602.00420v1
- Date: Sat, 31 Jan 2026 00:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.175102
- Title: Text is All You Need for Vision-Language Model Jailbreaking
- Title(参考訳): ヴィジュアル・ランゲージ・モデルの脱獄に必要なのはテキストだけ
- Authors: Yihang Chen, Zhao Xu, Youyuan Jiang, Tianle Zheng, Cho-Jui Hsieh,
- Abstract要約: 我々は,新しい脱獄攻撃であるText-DJを導入し,モデルの安全保護を回避した。
画像グリッドとしてLVLMにサブクエリとトラクションクエリを同時に提示する。
本手法は, 最先端のLVLMの安全アライメントを回避できることを実証する。
- 参考スコア(独自算出の注目度): 45.53821881474976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) are increasingly equipped with robust safety safeguards to prevent responses to harmful or disallowed prompts. However, these defenses often focus on analyzing explicit textual inputs or relevant visual scenes. In this work, we introduce Text-DJ, a novel jailbreak attack that bypasses these safeguards by exploiting the model's Optical Character Recognition (OCR) capability. Our methodology consists of three stages. First, we decompose a single harmful query into multiple and semantically related but more benign sub-queries. Second, we pick a set of distraction queries that are maximally irrelevant to the harmful query. Third, we present all decomposed sub-queries and distraction queries to the LVLM simultaneously as a grid of images, with the position of the sub-queries being middle within the grid. We demonstrate that this method successfully circumvents the safety alignment of state-of-the-art LVLMs. We argue this attack succeeds by (1) converting text-based prompts into images, bypassing standard text-based filters, and (2) inducing distractions, where the model's safety protocols fail to link the scattered sub-queries within a high number of irrelevant queries. Overall, our findings expose a critical vulnerability in LVLMs' OCR capabilities that are not robust to dispersed, multi-image adversarial inputs, highlighting the need for defenses for fragmented multimodal inputs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、有害または禁止されたプロンプトに対する応答を防ぐための堅牢な安全安全ガードを備えている。
しかしながら、これらの防御は、しばしば明示的なテキスト入力や関連する視覚シーンの分析に焦点を当てる。
本研究では,このモデルの光学的文字認識(OCR)機能を活用することで,これらの保護を回避できる新しいジェイルブレイク攻撃であるText-DJを紹介する。
私たちの方法論は3つの段階から成り立っている。
まず、有害なクエリを複数のセマンティックなサブクエリに分割する。
第二に、有害なクエリとは無関係に、気を散らすクエリのセットを選択します。
第3に,画像グリッドとしてLVLMに分解されたサブクエリとトラクションクエリを同時に提示し,サブクエリの位置をグリッドの中央に配置する。
本手法は, 最先端のLVLMの安全アライメントを回避できることを実証する。
この攻撃は,(1) テキストベースのプロンプトを画像に変換し,(2) 標準のテキストベースのフィルタをバイパスし,(2) モデルの安全プロトコルが大量の無関係なクエリで分散サブクエリをリンクできないような注意をそらすことによって成功する。
全体として,LVLMのOCR機能には,分散したマルチモーダル入力に対して堅牢でない重要な脆弱性が指摘され,断片化されたマルチモーダル入力に対する防御の必要性が強調された。
関連論文リスト
- Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models [73.43013217318965]
マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
論文 参考訳(メタデータ) (2025-09-21T11:22:32Z) - Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning [34.73320827764541]
テキスト・トゥ・イメージ(T2I)モデルは一般的に、機密画像の発生を防ぐために安全フィルタを配置する。
最近のジェイルブレイク攻撃手法は、LSMが敵のプロンプトを生成するように手動で設計する。
本稿では,LLMの推論能力を高めることを目的としたReason2Attack(R2A)を提案する。
論文 参考訳(メタデータ) (2025-03-23T08:40:39Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。