論文の概要: Cross-Modal Backdoors in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.07490v1
- Date: Fri, 08 May 2026 09:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.958663
- Title: Cross-Modal Backdoors in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるクロスモーダルバックドア
- Authors: Runhe Wang, Li Bai, Haibo Hu, Songze Li,
- Abstract要約: 単一の妥協されたコネクタは、モダリティを越えて再利用可能なラテントスペースバックドアパスを確立することができる。
この攻撃は、99.9%の攻撃成功率(ASR)を同モード設定で達成する。
- 参考スコア(独自算出の注目度): 21.893043087583667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developers increasingly construct multimodal large language models (MLLMs) by assembling pretrained components,introducing supply-chain attack surfaces.Existing security research primarily focuses on poisoning backbones such as encoders or large language models (LLMs),while the security risks of lightweight connectors remain unexplored.In this work,we propose a novel cross-modal backdoor attack that exploits this overlooked vulnerability.By poisoning only the connector using a single seed sample and several augmented variants from one modality,the adversary can subsequently activate the backdoor using inputs from other modalities.To achieve this,we first poison the connector to associate a compact latent region with a malicious target output.To activate the backdoor from other modalities,we further extract a malicious centroid from the poisoned latent representations and perform input-side optimization to steer inputs toward this latent anchor,without requiring repeated API queries or full-model access.Extensive evaluations on representative connector-based MLLM architectures,including PandaGPT and NExT-GPT,demonstrate both the effectiveness and cross-modal transferability of the proposed attack.The attack achieves up to 99.9% attack success rate (ASR) in same-modality settings,while most cross-modal settings exceed 95.0% ASR under bounded perturbations.Moreover,the attack remains highly stealthy,producing negligible leakage on clean inputs,and maintaining weight-cosine similarity above 0.97 relative to benign connectors.We further show that existing defense strategies fail to effectively mitigate this threat without incurring substantial utility degradation.These findings reveal a fundamental vulnerability in multimodal alignment: a single compromised connector can establish a reusable latent-space backdoor pathway across modalities,highlighting the need for safer modular MLLM design.
- Abstract(参考訳): 開発者は、事前訓練済みのコンポーネントを組み立て、サプライチェーン攻撃面を導入することで、MLLM(Multimodal large language model)を構築している。既存のセキュリティ研究は、主にエンコーダや大型言語モデル(LLMs)などの中毒バックボーンに焦点を当てているが、軽量コネクタのセキュリティリスクは未探索のままである。この見落としの脆弱性を悪用する新たなクロスモーダルバックドアアタックを提案している。この記事では、単一のシードサンプルといくつかの拡張された変種を1つのモジュールから使用したコネクタのみを毒殺した後、敵は、他のモダリティからの入力を使用してバックドアを活性化することができる。この目的を達成するために、我々は、悪質な出力をターゲットとするコンパクトな潜伏領域を関連づけるためのコネクタを初めて毒殺するため、他のモダリティから悪質なバックドアを起動するために、他のモダックインプットインプットインプットインプットから悪質なインプットインプットインプットインプットインプットインプットを抽出し、さらに悪質なインプットアウトプットインプットインプットインプットインプットインプットインプットを抽出する。
関連論文リスト
- ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety [54.4092272526747]
MLLM(Multimodal Large Language Models)は、クロスモーダルな理解と生成において大きな成功を収めていますが、そのデプロイは重大な安全性の脆弱性によって脅かされています。
本稿では,MLLMのバックドアを復号化するための解釈可能性フレームワークであるProjLensを提案する。
論文 参考訳(メタデータ) (2026-04-21T04:52:38Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Omni-Safety under Cross-Modality Conflict: Vulnerabilities, Dynamics Mechanisms and Efficient Alignment [18.100656799320777]
Omni-modal Large Language Models (OLLM) の脆弱性について検討する。
我々は介入強度を適応的に変調するOmniSteerを提案する。
実験により,本手法はすべてのモダリティにまたがる汎用性を効果的に維持できることが示されている。
論文 参考訳(メタデータ) (2026-02-10T06:04:08Z) - Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations [0.0]
MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
論文 参考訳(メタデータ) (2025-10-23T05:16:33Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。