論文の概要: Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.17277v1
- Date: Mon, 20 Oct 2025 08:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.363672
- Title: Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks
- Title(参考訳): マルチモーダル・セーフティは非対称。ブラックボックスのMLLMをアンロックするクロスモーダル・エクスプロイット
- Authors: Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Shouling Ji,
- Abstract要約: MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
- 参考スコア(独自算出の注目度): 33.836587055255954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated significant utility across diverse real-world applications. But MLLMs remain vulnerable to jailbreaks, where adversarial inputs can collapse their safety constraints and trigger unethical responses. In this work, we investigate jailbreaks in the text-vision multimodal setting and pioneer the observation that visual alignment imposes uneven safety constraints across modalities in MLLMs, thereby giving rise to multimodal safety asymmetry. We then develop PolyJailbreak, a black-box jailbreak method grounded in reinforcement learning. Initially, we probe the model's attention dynamics and latent representation space, assessing how visual inputs reshape cross-modal information flow and diminish the model's ability to separate harmful from benign inputs, thereby exposing exploitable vulnerabilities. On this basis, we systematize them into generalizable and reusable operational rules that constitute a structured library of Atomic Strategy Primitives, which translate harmful intents into jailbreak inputs through step-wise transformations. Guided by the primitives, PolyJailbreak employs a multi-agent optimization process that automatically adapts inputs against the target models. We conduct comprehensive evaluations on a variety of open-source and closed-source MLLMs, demonstrating that PolyJailbreak outperforms state-of-the-art baselines.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
本研究では,テキストビジョンのマルチモーダル設定におけるジェイルブレイクを調査し,視覚的アライメントがMLLMのモダリティに不均一な安全制約を課し,マルチモーダル安全性の非対称性を生じさせるという観察の先駆者となる。
次に,強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
当初、我々はモデルの注意力学と潜在表現空間を探索し、視覚入力がモーダルな情報の流れをどう形作るかを評価し、有害な入力から有害な入力を分離し、悪用可能な脆弱性を露呈するモデルの能力を低下させる。
そこで本研究では, 有害な意図を段階的変換によりジェイルブレイク入力に変換するアトミックストラテジープリミティブの構造化ライブラリを構成する, 汎用的で再利用可能な運用ルールに体系化する。
プリミティブによってガイドされたPolyJailbreakは、ターゲットモデルに対する入力を自動的に適応するマルチエージェント最適化プロセスを採用している。
我々は,さまざまなオープンソースおよびクローズドソースMLLMの総合評価を行い,PolyJailbreakが最先端のベースラインより優れていることを示す。
関連論文リスト
- SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.031628043029244]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,マルチモーダル生成モデルに特有の攻撃方法,防御機構,評価フレームワークの詳細な分類について述べる。
論文 参考訳(メタデータ) (2024-11-14T07:51:51Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。