論文の概要: Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations
- arxiv url: http://arxiv.org/abs/2510.20223v1
- Date: Thu, 23 Oct 2025 05:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.428045
- Title: Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations
- Title(参考訳): テキストを超えて:知覚的単純変換による視覚言語とオーディオモデルのマルチモーダルジェイルブレーク
- Authors: Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress, yet remain critically vulnerable to adversarial attacks that exploit weaknesses in cross-modal processing. We present a systematic study of multimodal jailbreaks targeting both vision-language and audio-language models, showing that even simple perceptual transformations can reliably bypass state-of-the-art safety filters. Our evaluation spans 1,900 adversarial prompts across three high-risk safety categories harmful content, CBRN (Chemical, Biological, Radiological, Nuclear), and CSEM (Child Sexual Exploitation Material) tested against seven frontier models. We explore the effectiveness of attack techniques on MLLMs, including FigStep-Pro (visual keyword decomposition), Intelligent Masking (semantic obfuscation), and audio perturbations (Wave-Echo, Wave-Pitch, Wave-Speed). The results reveal severe vulnerabilities: models with almost perfect text-only safety (0\% ASR) suffer >75\% attack success under perceptually modified inputs, with FigStep-Pro achieving up to 89\% ASR in Llama-4 variants. Audio-based attacks further uncover provider-specific weaknesses, with even basic modality transfer yielding 25\% ASR for technical queries. These findings expose a critical gap between text-centric alignment and multimodal threats, demonstrating that current safeguards fail to generalize across cross-modal attacks. The accessibility of these attacks, which require minimal technical expertise, suggests that robust multimodal AI safety will require a paradigm shift toward broader semantic-level reasoning to mitigate possible risks.
- Abstract(参考訳): MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、クロスモーダル処理の弱点を利用する敵攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象としたマルチモーダルジェイルブレイクの体系的研究を行い,単純な知覚変換であっても,最先端の安全フィルタを確実に回避できることを示した。
本評価は,高リスク安全性カテゴリー3種,CBRN (Chemical, Biological, Radiological, Nuclear) とCSEM (Child Sexual Exploitation Material) のそれぞれ1,900種を対象に実施した。
本稿では、FigStep-Pro(視覚的キーワード分解)、Intelligent Masking(意味的難読化)、音声摂動(Wave-Echo, Wave-Pitch, Wave-Speed)などのMLLMに対する攻撃手法の有効性を検討する。
ほぼ完全なテキストのみの安全性 (0\% ASR) を持つモデルは、知覚的に修正された入力で75\%の攻撃成功を被り、FigStep-ProはLlama-4の亜種で最大89\% ASRを達成する。
オーディオベースの攻撃はさらにプロバイダ固有の弱点を明らかにし、基本的なモダリティ転送さえも技術的クエリのASRが25倍になる。
これらの結果は、テキスト中心のアライメントとマルチモーダルの脅威の間に重要なギャップがあることを示し、現在のセーフガードがクロスモーダル攻撃全体にわたって一般化できないことを示した。
これらの攻撃のアクセシビリティは、最小限の技術的専門知識を必要とするため、堅牢なマルチモーダルAI安全性は、潜在的なリスクを軽減するために、より広範なセマンティックレベルの推論へのパラダイムシフトを必要とすることを示唆している。
関連論文リスト
- Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [33.49407213040455]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。