論文の概要: BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.18921v1
- Date: Mon, 24 Nov 2025 09:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.129796
- Title: BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models
- Title(参考訳): BackdoorVLM: ビジョンランゲージモデルに対するバックドアアタックのベンチマーク
- Authors: Juncheng Li, Yige Li, Hanxun Huang, Yunhao Chen, Xin Wang, Yixu Wang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: textbfBackdoorVLMは視覚言語モデル(VLM)に対するバックドア攻撃を評価するための最初の総合的なベンチマークである。
BackdoorVLMは、マルチモーダルなバックドア脅威を、ターゲットされた拒絶、悪意のある注入、ジェイルブレイク、コンセプト置換、知覚的ハイジャックの5つのカテゴリに分類する。
2つのオープンソースのVLMと3つのマルチモーダルデータセットでテストし、テキスト、画像、バイモーダルトリガにまたがる12の代表的な攻撃手法を用いて、これらの脅威を評価する。
- 参考スコア(独自算出の注目度): 63.5775877701015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks undermine the reliability and trustworthiness of machine learning systems by injecting hidden behaviors that can be maliciously activated at inference time. While such threats have been extensively studied in unimodal settings, their impact on multimodal foundation models, particularly vision-language models (VLMs), remains largely underexplored. In this work, we introduce \textbf{BackdoorVLM}, the first comprehensive benchmark for systematically evaluating backdoor attacks on VLMs across a broad range of settings. It adopts a unified perspective that injects and analyzes backdoors across core vision-language tasks, including image captioning and visual question answering. BackdoorVLM organizes multimodal backdoor threats into 5 representative categories: targeted refusal, malicious injection, jailbreak, concept substitution, and perceptual hijack. Each category captures a distinct pathway through which an adversary can manipulate a model's behavior. We evaluate these threats using 12 representative attack methods spanning text, image, and bimodal triggers, tested on 2 open-source VLMs and 3 multimodal datasets. Our analysis reveals that VLMs exhibit strong sensitivity to textual instructions, and in bimodal backdoors the text trigger typically overwhelms the image trigger when forming the backdoor mapping. Notably, backdoors involving the textual modality remain highly potent, with poisoning rates as low as 1\% yielding over 90\% success across most tasks. These findings highlight significant, previously underexplored vulnerabilities in current VLMs. We hope that BackdoorVLM can serve as a useful benchmark for analyzing and mitigating multimodal backdoor threats. Code is available at: https://github.com/bin015/BackdoorVLM .
- Abstract(参考訳): バックドア攻撃は、推論時に悪意あるアクティベートが可能な隠れた振る舞いを注入することで、機械学習システムの信頼性と信頼性を損なう。
このような脅威は、単調な環境で広く研究されてきたが、多モーダル基礎モデル、特に視覚言語モデル(VLM)への影響は、いまだほとんど調査されていない。
本稿では,VLMに対するバックドア攻撃を,広範囲な設定で体系的に評価するための,最初の総合的なベンチマークである,‘textbf{BackdoorVLM} を紹介する。
イメージキャプションや視覚的質問応答など、中核的な視覚言語タスクにバックドアを注入し、分析する統一的な視点を採用している。
BackdoorVLMは、マルチモーダルなバックドア脅威を、ターゲットされた拒絶、悪意のある注入、ジェイルブレイク、コンセプト置換、知覚的ハイジャックの5つのカテゴリに分類する。
各カテゴリは、相手がモデルの振る舞いを操作できる異なる経路をキャプチャする。
2つのオープンソースのVLMと3つのマルチモーダルデータセットでテストし、テキスト、画像、バイモーダルトリガにまたがる12の代表的な攻撃手法を用いて、これらの脅威を評価する。
分析の結果,VLMはテキストの指示に対して強い感度を示すことが明らかとなり,バイモーダルバックドアでは,バックドアマッピングの形成時に典型的にテキストトリガが画像トリガを圧倒する。
特に、テキストモダリティを含むバックドアは非常に強力であり、ほとんどのタスクで90%以上成功している。
これらの発見は、現在のVLMの重大な、未発見の脆弱性を浮き彫りにした。
BackdoorVLMは、マルチモーダルなバックドア脅威を分析し緩和するための有用なベンチマークとして機能することを願っている。
コードは、https://github.com/bin015/BackdoorVLM で入手できる。
関連論文リスト
- Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation [32.24294112337828]
BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。
実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。
我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-06-08T16:40:40Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models [27.59116619946915]
生成型大規模言語モデル(LLM)は、幅広いタスクにおいて最先端の結果を得たが、バックドア攻撃の影響を受けないままである。
BackdoorLLMは、テキストジェネレーションLLMのバックドア脅威を体系的に評価する最初の包括的なベンチマークである。
i) 標準化されたトレーニングと評価パイプラインを備えたベンチマークの統一リポジトリ; (ii) データ中毒、重毒、隠れ状態操作、チェーン・オブ・シークレット・ハイジャックなど、さまざまなアタック・モダリティのスイート; (iii) 8つの異なるアタック戦略にまたがる200以上の実験。
論文 参考訳(メタデータ) (2024-08-23T02:21:21Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。