論文の概要: Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography
- arxiv url: http://arxiv.org/abs/2512.20168v1
- Date: Tue, 23 Dec 2025 08:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.805432
- Title: Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography
- Title(参考訳): Odysseus:デュアルステガノグラフィーによる商用マルチモーダルLCM統合システムの脱獄
- Authors: Songze Li, Jiameng Cheng, Yiming Li, Xiaojun Jia, Dacheng Tao,
- Abstract要約: 本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 77.44136793431893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By integrating language understanding with perceptual modalities such as images, multimodal large language models (MLLMs) constitute a critical substrate for modern AI systems, particularly intelligent agents operating in open and interactive environments. However, their increasing accessibility also raises heightened risks of misuse, such as generating harmful or unsafe content. To mitigate these risks, alignment techniques are commonly applied to align model behavior with human values. Despite these efforts, recent studies have shown that jailbreak attacks can circumvent alignment and elicit unsafe outputs. Currently, most existing jailbreak methods are tailored for open-source models and exhibit limited effectiveness against commercial MLLM-integrated systems, which often employ additional filters. These filters can detect and prevent malicious input and output content, significantly reducing jailbreak threats. In this paper, we reveal that the success of these safety filters heavily relies on a critical assumption that malicious content must be explicitly visible in either the input or the output. This assumption, while often valid for traditional LLM-integrated systems, breaks down in MLLM-integrated systems, where attackers can leverage multiple modalities to conceal adversarial intent, leading to a false sense of security in existing MLLM-integrated systems. To challenge this assumption, we propose Odysseus, a novel jailbreak paradigm that introduces dual steganography to covertly embed malicious queries and responses into benign-looking images. Extensive experiments on benchmark datasets demonstrate that our Odysseus successfully jailbreaks several pioneering and realistic MLLM-integrated systems, achieving up to 99% attack success rate. It exposes a fundamental blind spot in existing defenses, and calls for rethinking cross-modal security in MLLM-integrated systems.
- Abstract(参考訳): 画像などの知覚的モダリティと言語理解を統合することで、マルチモーダル・大規模言語モデル(MLLM)は現代のAIシステム、特にオープンでインタラクティブな環境で動作しているインテリジェントエージェントにとって重要な基盤となる。
しかし、アクセシビリティの増大は、有害なコンテンツや安全でないコンテンツの生成など、誤使用のリスクを高める。
これらのリスクを軽減するために、モデル行動と人間の価値を整合させるアライメント手法が一般的である。
これらの努力にもかかわらず、最近の研究では、ジェイルブレイク攻撃はアライメントを回避し、安全でないアウトプットを引き出す可能性があることが示されている。
現在、既存のjailbreakメソッドはオープンソースモデル用に調整されており、商用のMLLM統合システムに対して限定的な効果を示しており、しばしば追加のフィルタを使用する。
これらのフィルタは悪意のある入力および出力コンテンツを検出し、防止し、ジェイルブレイクの脅威を著しく低減する。
本稿では、これらの安全フィルタの成功は、悪意のあるコンテンツが入力か出力のいずれかではっきりと見える必要があるという批判的な仮定に大きく依存していることを明らかにする。
この仮定は、しばしば従来のMLLM統合システムに有効であるが、MLLM統合システムでは、攻撃者が複数のモダリティを利用して敵の意図を隠すことができ、既存のMLLM統合システムでは誤ったセキュリティ感覚をもたらす。
この仮定に挑戦するために,悪意のあるクエリや応答を隠蔽して良質な画像に埋め込むデュアルステガノグラフィーを導入した新しいjailbreakパラダイムであるOdysseusを提案する。
ベンチマークデータセットに関する大規模な実験によると、我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムをジェイルブレイクし、最大99%の攻撃成功率を達成した。
既存の防衛において根本的な盲点を露呈し、MLLM統合システムにおけるクロスモーダルセキュリティの再考を求める。
関連論文リスト
- Jailbreaking Large Vision Language Models in Intelligent Transportation Systems [2.7051096873824982]
本稿では,インテリジェントトランスポーテーションシステムに組み込まれたLVLMの脆弱性を系統的に解析する。
画像タイポグラフィ操作とマルチターンプロンプトによりLVLMの脆弱性を悪用する新しいジェイルブレイク攻撃を導入する。
モデルが不適切な応答を発生させないための多層型応答フィルタリング防衛手法を提案する。
論文 参考訳(メタデータ) (2025-11-17T20:29:48Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。