論文の概要: Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabilities
- arxiv url: http://arxiv.org/abs/2512.02973v1
- Date: Tue, 02 Dec 2025 17:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.990802
- Title: Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabilities
- Title(参考訳): コンテキストイメージアタック:ビジュアルコンテキストがマルチモーダル・セーフティ・脆弱性を発生させる方法
- Authors: Yuan Xiong, Ziqi Miao, Lijun Li, Chen Qian, Jie Li, Jing Shao,
- Abstract要約: 我々は,新しい画像中心攻撃手法であるコンテキストイメージアタック(CIA)を提案する。
CIAは、4つの異なる視覚化戦略を使って、有害なクエリを一見して視覚的なコンテキストに埋め込む。
本手法は,視覚的モダリティ自体が高度なMLLMをジェイルブレイクするための強力なベクトルであることを示す。
- 参考スコア(独自算出の注目度): 34.64588827428617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) show remarkable capabilities, their safety alignments are susceptible to jailbreak attacks. Existing attack methods typically focus on text-image interplay, treating the visual modality as a secondary prompt. This approach underutilizes the unique potential of images to carry complex, contextual information. To address this gap, we propose a new image-centric attack method, Contextual Image Attack (CIA), which employs a multi-agent system to subtly embeds harmful queries into seemingly benign visual contexts using four distinct visualization strategies. To further enhance the attack's efficacy, the system incorporate contextual element enhancement and automatic toxicity obfuscation techniques. Experimental results on the MMSafetyBench-tiny dataset show that CIA achieves high toxicity scores of 4.73 and 4.83 against the GPT-4o and Qwen2.5-VL-72B models, respectively, with Attack Success Rates (ASR) reaching 86.31\% and 91.07\%. Our method significantly outperforms prior work, demonstrating that the visual modality itself is a potent vector for jailbreaking advanced MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は優れた能力を示すが、安全アライメントはジェイルブレイク攻撃の影響を受けやすい。
既存の攻撃方法は、通常、テキストイメージのインタープレイに焦点を当て、視覚的モダリティを二次的なプロンプトとして扱う。
このアプローチは、複雑なコンテキスト情報を運ぶために、画像のユニークなポテンシャルを過小評価する。
このギャップに対処するために,画像中心の新たな攻撃手法であるコンテキストイメージアタック(CIA)を提案する。
攻撃の有効性をさらに高めるため、コンテキスト要素の強化と自動毒性難読化技術が組み込まれている。
MMSafetyBench-tinyデータセットの実験結果から、CIAはGPT-4oとQwen2.5-VL-72Bモデルに対して高い毒性スコア4.73と4.83を達成し、アタック成功率(ASR)は86.31\%、91.07\%に達した。
本手法は,視覚的モダリティ自体が高度なMLLMをジェイルブレイクするための強力なベクトルであることを示す。
関連論文リスト
- Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling [11.939828002077482]
MLLM(Multimodal large language model)は、優れた能力を示すが、ジェイルブレイク攻撃の影響を受けない。
本研究では,最新のMLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
攻撃成功率は平均83.5%であり, 先行技術の46%を突破した。
論文 参考訳(メタデータ) (2025-10-16T18:30:26Z) - Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection [31.1604742796343]
マルチモーダルな大規模言語モデル(MLLM)は、現実世界のアプリケーションにとって大きな可能性を実証している。
視覚的モダリティによって示されたセキュリティ脆弱性は、そのようなモデルをオープンな環境にデプロイする上で重大な課題となる。
視覚中心のジェイルブレイクコンテキストを構築する上で,視覚情報が必要なコンポーネントとして機能する視覚的コンテキストアタックを提案する。
論文 参考訳(メタデータ) (2025-07-03T17:53:12Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。