論文の概要: MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.10098v1
- Date: Fri, 14 Nov 2025 01:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.696783
- Title: MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models
- Title(参考訳): MTAttack:大規模ビジョンランゲージモデルに対するマルチターゲットバックドア攻撃
- Authors: Zihan Wang, Guansong Pang, Wenjun Miao, Jin Zheng, Xiao Bai,
- Abstract要約: 我々は,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。
人気のあるベンチマークの実験では、マルチターゲット攻撃に対するMTAttackの成功率が高いことが示されている。
我々の攻撃は、データセット間での強力な一般化性と、バックドア防衛戦略に対する堅牢性を示す。
- 参考スコア(独自算出の注目度): 52.37749859972453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Visual Language Models (LVLMs) have demonstrated impressive performance across various vision-language tasks by leveraging large-scale image-text pretraining and instruction tuning. However, the security vulnerabilities of LVLMs have become increasingly concerning, particularly their susceptibility to backdoor attacks. Existing backdoor attacks focus on single-target attacks, i.e., targeting a single malicious output associated with a specific trigger. In this work, we uncover multi-target backdoor attacks, where multiple independent triggers corresponding to different attack targets are added in a single pass of training, posing a greater threat to LVLMs in real-world applications. Executing such attacks in LVLMs is challenging since there can be many incorrect trigger-target mappings due to severe feature interference among different triggers. To address this challenge, we propose MTAttack, the first multi-target backdoor attack framework for enforcing accurate multiple trigger-target mappings in LVLMs. The core of MTAttack is a novel optimization method with two constraints, namely Proxy Space Partitioning constraint and Trigger Prototype Anchoring constraint. It jointly optimizes multiple triggers in the latent space, with each trigger independently mapping clean images to a unique proxy class while at the same time guaranteeing their separability. Experiments on popular benchmarks demonstrate a high success rate of MTAttack for multi-target attacks, substantially outperforming existing attack methods. Furthermore, our attack exhibits strong generalizability across datasets and robustness against backdoor defense strategies. These findings highlight the vulnerability of LVLMs to multi-target backdoor attacks and underscore the urgent need for mitigating such threats. Code is available at https://github.com/mala-lab/MTAttack.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、大規模画像テキスト事前学習と命令チューニングを活用することで、様々な視覚言語タスクにおける印象的なパフォーマンスを実証している。
しかし、LVLMのセキュリティ脆弱性は、特にバックドア攻撃に対する感受性について、ますます懸念されている。
既存のバックドア攻撃は単一ターゲット攻撃、すなわち特定のトリガーに関連する単一の悪意のあるアウトプットをターゲットにしている。
本研究では,異なる攻撃対象に対応する複数の独立したトリガーを1回のトレーニングで追加し,現実のアプリケーションにおいてLVLMに対してより大きな脅威となるマルチターゲットバックドア攻撃を明らかにする。
LVLMにおけるこのような攻撃の実行は、異なるトリガ間に深刻な特徴干渉があるため、多くの誤ったトリガターゲットマッピングが存在する可能性があるため、困難である。
この課題に対処するために,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。
MTAttackの中核は2つの制約、すなわちプロキシ空間分割制約とトリガープロトタイプアンコリング制約を持つ新しい最適化手法である。
各トリガは独立してクリーンイメージを独自のプロキシクラスにマッピングすると同時に、分離性を保証する。
人気のあるベンチマークの実験では、MTAttackがマルチターゲット攻撃に対して高い成功率を示し、既存の攻撃方法を大幅に上回っている。
さらに,我々の攻撃は,データセット間の強い一般化性と,バックドア防衛戦略に対する堅牢性を示す。
これらの知見は、LVLMのマルチターゲットバックドア攻撃に対する脆弱性を浮き彫りにし、そのような脅威を緩和する緊急の必要性を浮き彫りにしている。
コードはhttps://github.com/mala-lab/MTAttack.comで入手できる。
関連論文リスト
- Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - M-to-N Backdoor Paradigm: A Multi-Trigger and Multi-Target Attack to Deep Learning Models [17.699749361475774]
我々は新たな$M$-to-$N$攻撃パラダイムを提案し、攻撃者が任意の入力を操作してターゲットクラスを攻撃できるようにする。
我々の攻撃は、ターゲットクラスごとに$M$のクリーンイメージをトリガーとして選択し、提案した有毒画像生成フレームワークを活用する。
我々の新たなバックドア攻撃は、複数のターゲットクラスを攻撃し、前処理操作や既存の防御に対して堅牢である。
論文 参考訳(メタデータ) (2022-11-03T15:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。