論文の概要: Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection
- arxiv url: http://arxiv.org/abs/2507.02844v1
- Date: Thu, 03 Jul 2025 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.78819
- Title: Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection
- Title(参考訳): 視覚的コンテキストアタック:イメージ駆動型コンテキストインジェクションによるMLLMのジェイルブレーク
- Authors: Ziqi Miao, Yi Ding, Lijun Li, Jing Shao,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、現実世界のアプリケーションにとって大きな可能性を実証している。
視覚的モダリティが示すセキュリティ上の脆弱性は、そのようなモデルをオープンな環境にデプロイする上で、重大な課題となる。
近年の研究では、有害なテキストセマンティクスを直接視覚入力にエンコードすることで、標的MLLMから有害な応答を誘導している。
本研究では,視覚中心のジェイルブレイク(Jailbreak)という新しい設定を定義し,視覚情報が完全で現実的なジェイルブレイクのコンテキストを構築する上で必要な要素として機能する。
- 参考スコア(独自算出の注目度): 19.91087036440618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of strong visual-language capabilities, multimodal large language models (MLLMs) have demonstrated tremendous potential for real-world applications. However, the security vulnerabilities exhibited by the visual modality pose significant challenges to deploying such models in open-world environments. Recent studies have successfully induced harmful responses from target MLLMs by encoding harmful textual semantics directly into visual inputs. However, in these approaches, the visual modality primarily serves as a trigger for unsafe behavior, often exhibiting semantic ambiguity and lacking grounding in realistic scenarios. In this work, we define a novel setting: visual-centric jailbreak, where visual information serves as a necessary component in constructing a complete and realistic jailbreak context. Building on this setting, we propose the VisCo (Visual Contextual) Attack. VisCo fabricates contextual dialogue using four distinct visual-focused strategies, dynamically generating auxiliary images when necessary to construct a visual-centric jailbreak scenario. To maximize attack effectiveness, it incorporates automatic toxicity obfuscation and semantic refinement to produce a final attack prompt that reliably triggers harmful responses from the target black-box MLLMs. Specifically, VisCo achieves a toxicity score of 4.78 and an Attack Success Rate (ASR) of 85% on MM-SafetyBench against GPT-4o, significantly outperforming the baseline, which performs a toxicity score of 2.48 and an ASR of 22.2%. The code is available at https://github.com/Dtc7w3PQ/Visco-Attack.
- Abstract(参考訳): 強力な視覚言語能力の出現に伴い、マルチモーダル・大規模言語モデル(MLLM)は現実世界のアプリケーションにとって大きな可能性を示した。
しかしながら、視覚的モダリティによって示されたセキュリティ上の脆弱性は、そのようなモデルをオープンな環境にデプロイする上で重大な課題を生じさせる。
近年の研究では、有害なテキストセマンティクスを直接視覚入力にエンコードすることで、標的MLLMから有害な応答を誘導している。
しかしながら、これらのアプローチでは、視覚的モダリティは、主に安全でない振る舞いの引き金となり、しばしば意味的曖昧さを示し、現実的なシナリオの基盤を欠いている。
本研究では,視覚中心のジェイルブレイク(Jailbreak)という新しい設定を定義し,視覚情報が完全で現実的なジェイルブレイクのコンテキストを構築する上で必要な要素として機能する。
この設定に基づいて、我々はVisCo攻撃(Visual Contextual attack)を提案する。
VisCoは、視覚中心のジェイルブレイクシナリオを構築するために必要な補助的なイメージを動的に生成する、4つの異なる視覚中心の戦略を使用してコンテキスト対話を作成する。
攻撃効率を最大化するために、標的のブラックボックスMLLMから有害な応答を確実に引き起こす最終攻撃プロンプトを生成するために、自動毒性難読化とセマンティックリファクションを組み込んだ。
特に、VisCoは、MM-SafetyBenchのGPT-4oに対する毒性スコア4.78とアタック成功率(ASR)85%を達成し、ベースラインを著しく上回り、毒性スコア2.48とASR22.2%を達成している。
コードはhttps://github.com/Dtc7w3PQ/Visco-Attack.comで公開されている。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Distraction is All You Need for Multimodal Large Language Model Jailbreaking [14.787247403225294]
マルチレベル・トラクション戦略によりMLLMのアライメントを阻害する手法として,CS-DJ(Contrasting Subimage Distraction Jailbreaking)を提案する。
CS-DJは平均成功率52.40%、アンサンブル攻撃成功率74.10%を達成している。
これらの結果から,MLLMの防御を活用・回避するための散逸に基づくアプローチの可能性を明らかにした。
論文 参考訳(メタデータ) (2025-02-15T13:25:12Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。