論文の概要: Benign Inputs, Harmful Outputs: Cross-Modal Jailbreaking via Distributed Semantic Recomposition
- arxiv url: http://arxiv.org/abs/2606.01837v1
- Date: Mon, 01 Jun 2026 07:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.577459
- Title: Benign Inputs, Harmful Outputs: Cross-Modal Jailbreaking via Distributed Semantic Recomposition
- Title(参考訳): 良質な入力と有害なアウトプット:分散意味論によるクロスモーダルジェイルブレーキング
- Authors: Yani Wang, Yilong Yang, Yang Liu, Zhuzhu Wang, Zuobin Ying, Zhuo Ma,
- Abstract要約: MLLM(Multimodal Large Language Models)は近年,コンテンツ合成と自律推論において顕著な能力を示した。
従来の安全ガードレールは、主に単文入力インターセプション用に設計されている。
本稿では,分散セマンティック・リコンポジション(DSR)を提案する。
- 参考スコア(独自算出の注目度): 10.177453923096754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable capabilities in content synthesis and autonomous reasoning. Previous safety guardrails are primarily designed for unimodal textual input interception, leaving them vulnerable to cross-modal jailbreak attacks. However, regardless unimodal textual attack or cross-modal jailbreak, typically inclusive part of explicit harmful or sensitive content at the input level, which is called Harm-Bearing. It allow the model's safety filters to detect and block such content easily. To address this limitations, we propose Distributed Semantic Recomposition (DSR), a novel cross-modal jailbreak framework that decomposes harmful intent into a set of benign textual and visual primitives. By exploiting the model's reasoning ability, DSR enables the latent fusion of these seemingly innocent components into harmful outputs during the cross-modal inference phase. Extensive experiments on multiple commercial MLLMs pipelines demonstrate that DSR achieves superior attack success rates while maintaining an extremely low or even negligible input toxicity rate. Our findings uncover a critical Utility-Safety Paradox in MLLMs, where the model's instruction-following proficiency facilitates its own cognitive exploitation. Content Warning: This paper contains harmful model responses.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,コンテンツ合成と自律推論において顕著な能力を示した。
以前の安全ガードレールは、主にテキスト入力の傍受のために設計されており、それらはモダル横断のジェイルブレイク攻撃に弱いままである。
しかし、一過性のテキスト攻撃やクロスモーダル・ジェイルブレイクにかかわらず、通常、入力レベルにおける明示的な有害またはセンシティブなコンテンツの包括的部分(Harm-Bearing)は、Harm-Bearingと呼ばれる。
これにより、モデルのセーフティフィルタがそのようなコンテンツを検出およびブロックしやすくなる。
この制限に対処するため、我々は、有害な意図を良質なテキストと視覚的プリミティブのセットに分解する新しいクロスモーダル・ジェイルブレイク・フレームワークである分散セマンティック・リコレーション(DSR)を提案する。
モデルの推論能力を活用することで、DSRはこれらの一見無作為なコンポーネントを、クロスモーダル推論フェーズ中に有害な出力に潜伏的に融合することができる。
複数の商用MLLMパイプラインに対する大規模な実験により、DSRは極めて低または無視可能な入力毒性率を維持しながら、優れた攻撃成功率を達成することが示された。
本研究は,MLLMにおける重要な実用・安全パラドックスを明らかにすることを目的とした。
コンテンツ警告: 有害なモデル応答を含む。
関連論文リスト
- CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs [10.42126976065225]
MLLM(Multimodal large language model)は、テキストと画像の相互作用を可能にする。
本稿では,クロスモーダル信頼性を評価するベンチマークであるCSR-Benchを紹介する。
我々は16の最先端MLLMを評価し,系統的な相互アライメントギャップを観察した。
論文 参考訳(メタデータ) (2026-02-03T08:49:44Z) - A Fragile Guardrail: Diffusion LLM's Safety Blessing and Its Failure Mode [51.43498132808724]
Diffusion large language model (D-LLMs) はjailbreak攻撃に対して本質的に堅牢であることを示す。
構成された良質なコンテキスト内に有害な要求が埋め込まれる、単純な、効果的な障害モードをコンテキストネストと呼ぶ。
この単純な戦略は、D-LLMの安全性を回避し、最先端の攻撃成功率を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2026-01-30T23:08:14Z) - Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。