論文の概要: VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack
- arxiv url: http://arxiv.org/abs/2512.05853v2
- Date: Mon, 08 Dec 2025 07:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 15:54:52.389559
- Title: VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack
- Title(参考訳): VRSA:視覚的推論によるマルチモーダルな大規模言語モデルの脱獄
- Authors: Shiji Zhao, Shukun Xiong, Yao Huang, Yan Jin, Zhenyu Wu, Jiyang Guan, Ranjie Duan, Jialing Tao, Hui Xue, Xingxing Wei,
- Abstract要約: MLLM(Multimodal Large Language Models)は、その強力なクロスモーダル理解と生成能力により、様々な分野で広く使われている。
以前のジェイルブレイク攻撃は、テキストモダルで安全性のリスクを推論しようとする試みだったが、視覚モダルでは同様の脅威がほとんど見過ごされている。
本稿では、MLLMを徐々に外部化し、完全に有害な意図を集約する視覚推論シークエンシャルアタック(VRSA)を提案する。
- 参考スコア(独自算出の注目度): 40.68344330540352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are widely used in various fields due to their powerful cross-modal comprehension and generation capabilities. However, more modalities bring more vulnerabilities to being utilized for jailbreak attacks, which induces MLLMs to output harmful content. Due to the strong reasoning ability of MLLMs, previous jailbreak attacks try to explore reasoning safety risk in text modal, while similar threats have been largely overlooked in the visual modal. To fully evaluate potential safety risks in the visual reasoning task, we propose Visual Reasoning Sequential Attack (VRSA), which induces MLLMs to gradually externalize and aggregate complete harmful intent by decomposing the original harmful text into several sequentially related sub-images. In particular, to enhance the rationality of the scene in the image sequence, we propose Adaptive Scene Refinement to optimize the scene most relevant to the original harmful query. To ensure the semantic continuity of the generated image, we propose Semantic Coherent Completion to iteratively rewrite each sub-text combined with contextual information in this scene. In addition, we propose Text-Image Consistency Alignment to keep the semantical consistency. A series of experiments demonstrates that the VRSA can achieve a higher attack success rate compared with the state-of-the-art jailbreak attack methods on both the open-source and closed-source MLLMs such as GPT-4o and Claude-4.5-Sonnet.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、その強力なクロスモーダル理解と生成能力により、様々な分野で広く使われている。
しかし、より多くのモダリティがジェイルブレイク攻撃により多くの脆弱性をもたらし、有害なコンテンツを出力するためにMLLMを誘導する。
MLLMの強い推論能力のため、以前のジェイルブレイク攻撃はテキストモダルでの安全性リスクの推論を試みている。
視覚的推論タスクにおける潜在的な安全性リスクを十分に評価するために,視覚的推論攻撃 (VRSA) を提案する。
特に、画像シーケンスにおけるシーンの合理性を高めるために、元の有害なクエリに最も関係のあるシーンを最適化するために、適応シーン精細化を提案する。
生成した画像のセマンティックな連続性を確保するために,各サブテキストとコンテキスト情報とを反復的に書き直すセマンティック・コヒーレント・コンプリートを提案する。
さらに,意味的一貫性を維持するために,テキスト画像整合性アライメントを提案する。
一連の実験では、GPT-4oやClaude-4.5-SonnetのようなオープンソースおよびクローズドソースMLLMの最先端のジェイルブレイク攻撃手法と比較して、VRSAがより高い攻撃成功率を達成することを示した。
関連論文リスト
- Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling [11.939828002077482]
MLLM(Multimodal large language model)は、優れた能力を示すが、ジェイルブレイク攻撃の影響を受けない。
本研究では,最新のMLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
攻撃成功率は平均83.5%であり, 先行技術の46%を突破した。
論文 参考訳(メタデータ) (2025-10-16T18:30:26Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character [5.927633974815329]
本稿では,MLLMジェイルブレイク攻撃に対する視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。
VRPは、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。
良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクなキャラクターイメージはMLLMを効果的に誤解して悪意ある応答を発生させる。
論文 参考訳(メタデータ) (2024-05-25T17:17:18Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。