論文の概要: Adversarial Attacks on Multimodal Large Language Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2603.27918v1
- Date: Mon, 30 Mar 2026 00:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.178655
- Title: Adversarial Attacks on Multimodal Large Language Models: A Comprehensive Survey
- Title(参考訳): マルチモーダル大規模言語モデルに対する敵対的攻撃:包括的調査
- Authors: Bhavuk Jain, Sercan Ö. Arık, Hardeo K. Thakur,
- Abstract要約: MLLM(Multimodal large language model)は、テキスト、画像、オーディオ、ビデオなどの複数のモダリティからの情報を統合することで、視覚的質問応答や音声翻訳などの複雑な機能を実現する。
本調査はMLLMに対する敵の脅威を包括的かつ体系的に分析する。
攻撃対象に応じて敵攻撃を組織する分類法を導入し,多種多様な攻撃面をモダリティと展開設定で統一する。
また、マルチモーダルシステムのアーキテクチャや表現上の弱点を共有するために、整合性攻撃、安全性と脱獄の失敗、制御と命令のハイジャック、トレーニング時間中毒をリンクする脆弱性中心の分析も提案する。
- 参考スコア(独自算出の注目度): 0.21847754147782886
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) integrate information from multiple modalities such as text, images, audio, and video, enabling complex capabilities such as visual question answering and audio translation. While powerful, this increased expressiveness introduces new and amplified vulnerabilities to adversarial manipulation. This survey provides a comprehensive and systematic analysis of adversarial threats to MLLMs, moving beyond enumerating attack techniques to explain the underlying causes of model susceptibility. We introduce a taxonomy that organizes adversarial attacks according to attacker objectives, unifying diverse attack surfaces across modalities and deployment settings. Additionally, we also present a vulnerability-centric analysis that links integrity attacks, safety and jailbreak failures, control and instruction hijacking, and training-time poisoning to shared architectural and representational weaknesses in multimodal systems. Together, this framework provides an explanatory foundation for understanding adversarial behavior in MLLMs and informs the development of more robust and secure multimodal language systems.
- Abstract(参考訳): MLLM(Multimodal large language model)は、テキスト、画像、オーディオ、ビデオなどの複数のモダリティからの情報を統合することで、視覚的質問応答や音声翻訳などの複雑な機能を実現する。
しかし、この表現力の増大は、敵の操作に新しく増幅された脆弱性をもたらす。
この調査は、MLLMに対する敵の脅威を包括的かつ体系的に分析し、モデル感受性の根本原因を説明するために、攻撃テクニックの列挙を越えている。
攻撃対象に応じて敵攻撃を組織する分類法を導入し,多種多様な攻撃面をモダリティと展開設定で統一する。
さらに,マルチモーダルシステムにおけるアーキテクチャ的・表現的弱点の共有に,整合性攻撃,安全性と脱獄障害,制御と命令のハイジャック,トレーニング時間中毒を関連付ける脆弱性中心の分析も提案する。
このフレームワークはMLLMの敵対行動を理解するための説明的基盤を提供し、より堅牢でセキュアなマルチモーダル言語システムの開発を通知する。
関連論文リスト
- Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。
現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。
本稿では,MLLMの対角的ロバスト性について述べる。
論文 参考訳(メタデータ) (2025-03-18T06:54:59Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。
本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文 参考訳(メタデータ) (2024-04-08T07:54:18Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。