論文の概要: Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling
- arxiv url: http://arxiv.org/abs/2510.15068v1
- Date: Thu, 16 Oct 2025 18:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.354731
- Title: Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling
- Title(参考訳): 構造化ビジュアルストーリーテリングによるマルチモーダル大言語モデルのジェイルブレークのための逐次コミック
- Authors: Deyue Zhang, Dongdong Yang, Junjie Mu, Quancheng Zou, Zonghao Ying, Wenzhuo Xu, Zhao Liu, Xuan Wang, Xiangzheng Zhang,
- Abstract要約: MLLM(Multimodal large language model)は、優れた能力を示すが、ジェイルブレイク攻撃の影響を受けない。
本研究では,最新のMLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
攻撃成功率は平均83.5%であり, 先行技術の46%を突破した。
- 参考スコア(独自算出の注目度): 11.939828002077482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) exhibit remarkable capabilities but remain susceptible to jailbreak attacks exploiting cross-modal vulnerabilities. In this work, we introduce a novel method that leverages sequential comic-style visual narratives to circumvent safety alignments in state-of-the-art MLLMs. Our method decomposes malicious queries into visually innocuous storytelling elements using an auxiliary LLM, generates corresponding image sequences through diffusion models, and exploits the models' reliance on narrative coherence to elicit harmful outputs. Extensive experiments on harmful textual queries from established safety benchmarks show that our approach achieves an average attack success rate of 83.5\%, surpassing prior state-of-the-art by 46\%. Compared with existing visual jailbreak methods, our sequential narrative strategy demonstrates superior effectiveness across diverse categories of harmful content. We further analyze attack patterns, uncover key vulnerability factors in multimodal safety mechanisms, and evaluate the limitations of current defense strategies against narrative-driven attacks, revealing significant gaps in existing protections.
- Abstract(参考訳): MLLM(Multimodal large language model)は、優れた機能を示すが、クロスモーダル脆弱性を利用したジェイルブレイク攻撃の影響を受けやすい。
本研究では,現代MLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
提案手法は,有害なクエリを視覚的に無害なストーリーテリング要素に分解し,拡散モデルを用いて対応する画像列を生成し,有害なアウトプットを引き出すために,モデルが物語コヒーレンスに依存することを利用する。
確立された安全ベンチマークから得られた有害なテキストクエリに関する広範囲な実験により、我々の手法は攻撃成功率83.5\%を達成し、過去の技術水準を46\%上回る結果となった。
既存の視覚的ジェイルブレイク法と比較すると, 有害コンテンツの多種多様なカテゴリーにおいて, 優れた効果を示す。
さらに、攻撃パターンを分析し、マルチモーダル安全メカニズムの鍵となる脆弱性を解明し、物語駆動攻撃に対する現在の防衛戦略の限界を評価し、既存の防御に重大なギャップがあることを明らかにする。
関連論文リスト
- Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation [1.0012740151280692]
本稿では,マルチモーダル大言語モデル(MLLM)の3次元安全性を評価するためのフレームワークを提案する。
本稿では,ヒト誘導型合成対向攻撃を用いたショートビデオ・マルチモーダル対向データセットを提案する。
最先端MLLMの大規模な実験により、攻撃成功率(ASR)の高い重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-07-16T07:02:15Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。