論文の概要: Multi-turn Jailbreaking Attack in Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05339v1
- Date: Thu, 08 Jan 2026 19:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.753399
- Title: Multi-turn Jailbreaking Attack in Multi-Modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるマルチターンジェイルブレーク攻撃
- Authors: Badhan Chandra Das, Md Tasnim Jawad, Joaquin Molto, M. Hadi Amini, Yanzhao Wu,
- Abstract要約: 本稿では,MJAD-MLLMsを提案する。MLLMのマルチターンジェイルブレイク攻撃とマルチLLMベースの防御手法を総合的に解析するフレームワークである。
我々は,マルチターンプロンプト下でMLLMの脆弱性を悪用するために,新しいマルチターンジェイルブレイク攻撃を導入する。
第2に,MLLMにおける脱獄攻撃を効果的に軽減するために,FragGuardと呼ばれるフラグメント最適化およびマルチLLM防御機構を提案する。
- 参考スコア(独自算出の注目度): 2.7051096873824982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the security vulnerabilities of Multi-modal Large Language Models (MLLMs) have become a serious concern in the Generative Artificial Intelligence (GenAI) research. These highly intelligent models, capable of performing multi-modal tasks with high accuracy, are also severely susceptible to carefully launched security attacks, such as jailbreaking attacks, which can manipulate model behavior and bypass safety constraints. This paper introduces MJAD-MLLMs, a holistic framework that systematically analyzes the proposed Multi-turn Jailbreaking Attacks and multi-LLM-based defense techniques for MLLMs. In this paper, we make three original contributions. First, we introduce a novel multi-turn jailbreaking attack to exploit the vulnerabilities of the MLLMs under multi-turn prompting. Second, we propose a novel fragment-optimized and multi-LLM defense mechanism, called FragGuard, to effectively mitigate jailbreaking attacks in the MLLMs. Third, we evaluate the efficacy of the proposed attacks and defenses through extensive experiments on several state-of-the-art (SOTA) open-source and closed-source MLLMs and benchmark datasets, and compare their performance with the existing techniques.
- Abstract(参考訳): 近年、MLLM(Multi-modal Large Language Models)のセキュリティ脆弱性は、Generative Artificial Intelligence(GenAI)研究において深刻な懸念となっている。
これらの高度にインテリジェントなモデルは、高い精度でマルチモーダルタスクを実行することができ、また、モデルの振る舞いを操作でき、安全性の制約を回避できるジェイルブレイク攻撃のような、慎重に起動されるセキュリティ攻撃にも非常に影響を受けやすい。
本稿では,MLLMに対するマルチターンジェイルブレーキング攻撃とマルチLLMベースの防御手法を体系的に解析する総合的なフレームワークであるMJAD-MLLMを紹介する。
本稿では,3つのオリジナルコントリビューションについて述べる。
まず,マルチターンプロンプトにおけるMLLMの脆弱性を悪用する,新しいマルチターンジェイルブレイク攻撃を提案する。
第2に,MLLMにおける脱獄攻撃を効果的に軽減するために,FragGuardと呼ばれるフラグメント最適化およびマルチLLM防御機構を提案する。
第3に,複数のオープンソースおよびクローズドソースMLLMおよびベンチマークデータセットに対する大規模な実験を通じて,提案した攻撃と防御の有効性を評価し,その性能と既存技術との比較を行った。
関連論文リスト
- Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework [56.78050386956432]
JPROは、自動VLMジェイルブレイク用に設計された新しいマルチエージェント協調フレームワークである。
これは、アタックの多様性とスケーラビリティにおいて、以前の方法の欠点を克服する。
実験の結果,JPROは複数の高度なVLMに対して60%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-11-10T17:16:46Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models [0.0]
HIMRDと呼ばれるマルチモーダルリスク分散ジェイルブレイク攻撃法はブラックボックスであり、マルチモーダルリスク分散戦略と有害な検索戦略という2つの要素から構成される。
HIMRDは、7つのオープンソースMLLMで平均攻撃成功率(ASR)を90%達成し、3つのクローズドソースMLLMで平均攻撃成功率(ASR)を約68%達成している。
論文 参考訳(メタデータ) (2024-12-08T13:20:45Z) - Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.031628043029244]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,マルチモーダル生成モデルに特有の攻撃方法,防御機構,評価フレームワークの詳細な分類について述べる。
論文 参考訳(メタデータ) (2024-11-14T07:51:51Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking [32.300594239333236]
Large Language Models (LLM) と Multimodal Large Language Models (MLLM) は、様々な攻撃に対して脆弱性を暴露している。
本稿では, LLM と MLLM を対象とするジェイルブレーキング研究の概要を概説し, 評価ベンチマーク, 攻撃技術, 防衛戦略の最近の進歩に注目した。
論文 参考訳(メタデータ) (2024-06-21T04:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。