論文の概要: MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs
- arxiv url: http://arxiv.org/abs/2603.00565v1
- Date: Sat, 28 Feb 2026 09:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.262901
- Title: MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs
- Title(参考訳): MIDAS:Jailbreaking MLLMのマルチイメージ分散とセマンティック再構築
- Authors: Yilian Liu, Xiaojun Jia, Guoshun Nan, Jiuyang Lyu, Zhican Chen, Tao Guan, Shuyuan Luo, Zhongyi Zhai, Yang Liu,
- Abstract要約: マルチイメージ分散と意味再構成(MIDAS)
本稿では,有害なセマンティクスをリスク対応サブユニットに分解するマルチモーダルジェイルブレイクフレームワークを提案する。
MIDASはより長く、より構造化されたマルチイメージ連鎖推論を強制する。
- 参考スコア(独自算出の注目度): 22.919956583415324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable performance but remain vulnerable to jailbreak attacks that can induce harmful content and undermine their secure deployment. Previous studies have shown that introducing additional inference steps, which disrupt security attention, can make MLLMs more susceptible to being misled into generating malicious content. However, these methods rely on single-image masking or isolated visual cues, which only modestly extend reasoning paths and thus achieve limited effectiveness, particularly against strongly aligned commercial closed-source models. To address this problem, in this paper, we propose Multi-Image Dispersion and Semantic Reconstruction (MIDAS), a multimodal jailbreak framework that decomposes harmful semantics into risk-bearing subunits, disperses them across multiple visual clues, and leverages cross-image reasoning to gradually reconstruct the malicious intent, thereby bypassing existing safety mechanisms. The proposed MIDAS enforces longer and more structured multi-image chained reasoning, substantially increases the model's reliance on visual cues while delaying the exposure of malicious semantics and significantly reducing the model's security attention, thereby improving the performance of jailbreak against advanced MLLMs. Extensive experiments across different datasets and MLLMs demonstrate that the proposed MIDAS outperforms state-of-the-art jailbreak attacks for MLLMs and achieves an average attack success rate of 81.46% across 4 closed-source MLLMs. Our code is available at this [link](https://github.com/Winnie-Lian/MIDAS).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、優れたパフォーマンスを達成したが、有害なコンテンツを誘発し、セキュアなデプロイメントを損なう可能性のある、ジェイルブレイク攻撃に弱いままである。
これまでの研究では、セキュリティの注意を損なう新たな推論手順を導入することで、MLLMが悪意のあるコンテンツの生成に誤解されるおそれがあることが示された。
しかし、これらの手法は単一イメージマスキングや孤立した視覚的手がかりに依存しており、これは推論経路をわずかに拡張するだけで、特に強く整列した商用クローズドソースモデルに対して限定的な効果が得られる。
そこで本研究では,有害なセマンティクスをリスクを持つサブユニットに分解し,複数の視覚的手がかりに分散し,画像横断的推論を利用して,有害な意図を徐々に再構築し,既存の安全メカニズムをバイパスするマルチモーダル・ジェイルブレイク・フレームワークであるMIDASを提案する。
提案したMIDASは、より長く、より構造化されたマルチイメージ連鎖推論を強制し、悪意のあるセマンティクスの露出を遅らせながら、モデルの視覚的キューへの依存を大幅に増加させ、モデルのセキュリティの注意を著しく低減し、高度なMLLMに対するジェイルブレイクの性能を向上させる。
異なるデータセットとMLLMにわたる大規模な実験により、提案されたMIDASはMLLMの最先端のジェイルブレイク攻撃より優れており、4つのクローズドソースMLLMの平均攻撃成功率は81.46%であることが示された。
私たちのコードは this [link] (https://github.com/Winnie-Lian/MIDAS) で利用可能です。
関連論文リスト
- Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs [2.903006172774433]
Beyond Visual Safety (BVS)は、MLLMの視覚的安全性境界を調査するために設計された、画像とテキストのペアのジェイルブレイクフレームワークである。
BVSは、視覚的スプライシングと帰納的再構成を活用して悪意ある意図を生の入力から切り離す"再構築世代"戦略を採用している。
本研究は,現在のMLLMの視覚安全アライメントにおける重大な脆弱性を明らかにするものである。
論文 参考訳(メタデータ) (2026-01-22T06:56:27Z) - Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack [40.68344330540352]
MLLM(Multimodal Large Language Models)は、その強力なクロスモーダル理解と生成能力により、様々な分野で広く使われている。
以前のジェイルブレイク攻撃は、テキストモダルで安全性のリスクを推論しようとする試みだったが、視覚モダルでは同様の脅威がほとんど見過ごされている。
本稿では、MLLMを徐々に外部化し、完全に有害な意図を集約する視覚推論シークエンシャルアタック(VRSA)を提案する。
論文 参考訳(メタデータ) (2025-12-05T16:29:52Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。