論文の概要: Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.16760v1
- Date: Fri, 20 Jun 2025 05:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.349964
- Title: Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおけるジェイルブレイク攻撃に対するクロスモーダル難読化法
- Authors: Lei Jiang, Zixun Zhang, Zizhou Wang, Xiaobing Sun, Zhen Li, Liangli Zhen, Xiaohua Xu,
- Abstract要約: 本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
- 参考スコア(独自算出の注目度): 11.867355323884217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) demonstrate exceptional performance across multimodal tasks, yet remain vulnerable to jailbreak attacks that bypass built-in safety mechanisms to elicit restricted content generation. Existing black-box jailbreak methods primarily rely on adversarial textual prompts or image perturbations, yet these approaches are highly detectable by standard content filtering systems and exhibit low query and computational efficiency. In this work, we present Cross-modal Adversarial Multimodal Obfuscation (CAMO), a novel black-box jailbreak attack framework that decomposes malicious prompts into semantically benign visual and textual fragments. By leveraging LVLMs' cross-modal reasoning abilities, CAMO covertly reconstructs harmful instructions through multi-step reasoning, evading conventional detection mechanisms. Our approach supports adjustable reasoning complexity and requires significantly fewer queries than prior attacks, enabling both stealth and efficiency. Comprehensive evaluations conducted on leading LVLMs validate CAMO's effectiveness, showcasing robust performance and strong cross-model transferability. These results underscore significant vulnerabilities in current built-in safety mechanisms, emphasizing an urgent need for advanced, alignment-aware security and safety solutions in vision-language systems.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる例外的なパフォーマンスを示すが、制限されたコンテンツ生成を誘発するビルトインセーフティメカニズムをバイパスするジェイルブレイク攻撃に弱いままである。
既存のブラックボックスジェイルブレイク法は、主に敵対的なテキストのプロンプトや画像の摂動に依存しているが、これらの手法は標準のコンテンツフィルタリングシステムによって検出され、クエリや計算効率が低い。
本研究では,悪質なプロンプトを意味論的に良質な視覚的・テキスト的断片に分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークであるクロスモーダル・マルチモーダル・オブファシケーション(CAMO)を提案する。
LVLMのクロスモーダル推論能力を活用することで、CAMOは多段階推論によって有害な命令を隠蔽的に再構築し、従来の検出機構を回避する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
LVLMの総合評価はCAMOの有効性を検証し、頑健な性能と強力なクロスモデル転送性を示した。
これらの結果は、現在のビルトインの安全メカニズムにおける重大な脆弱性を浮き彫りにしており、視覚言語システムにおける高度なアライメント対応のセキュリティと安全ソリューションに対する緊急の必要性を強調している。
関連論文リスト
- Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。