論文の概要: Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
- arxiv url: http://arxiv.org/abs/2506.07214v1
- Date: Sun, 08 Jun 2025 16:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.715306
- Title: Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
- Title(参考訳): 静的操作による視覚言語モデルに対するバックドアアタック
- Authors: Zhiyuan Zhong, Zhen Sun, Yepang Liu, Xinlei He, Guanhong Tao,
- Abstract要約: BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。
実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。
我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 32.24294112337828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have shown remarkable performance, but are also vulnerable to backdoor attacks whereby the adversary can manipulate the model's outputs through hidden triggers. Prior attacks primarily rely on single-modality triggers, leaving the crucial cross-modal fusion nature of VLMs largely unexplored. Unlike prior work, we identify a novel attack surface that leverages cross-modal semantic mismatches as implicit triggers. Based on this insight, we propose BadSem (Backdoor Attack with Semantic Manipulation), a data poisoning attack that injects stealthy backdoors by deliberately misaligning image-text pairs during training. To perform the attack, we construct SIMBad, a dataset tailored for semantic manipulation involving color and object attributes. Extensive experiments across four widely used VLMs show that BadSem achieves over 98% average ASR, generalizes well to out-of-distribution datasets, and can transfer across poisoning modalities. Our detailed analysis using attention visualization shows that backdoored models focus on semantically sensitive regions under mismatched conditions while maintaining normal behavior on clean inputs. To mitigate the attack, we try two defense strategies based on system prompt and supervised fine-tuning but find that both of them fail to mitigate the semantic backdoor. Our findings highlight the urgent need to address semantic vulnerabilities in VLMs for their safer deployment.
- Abstract(参考訳): 視覚言語モデル(VLM)は優れた性能を示しているが、敵が隠れたトリガーを通じてモデルの出力を操作できるバックドア攻撃にも脆弱である。
以前の攻撃は主に単一モダリティトリガーに依存しており、VLMの重要な相互融合の性質はほとんど解明されていない。
従来の作業とは違って、モーダルなセマンティックミスマッチを暗黙のトリガーとして活用する新たな攻撃面を同定する。
この知見に基づいて、トレーニング中に画像テキストペアを意図的に誤アライメントすることにより、ステルスなバックドアを注入するデータ中毒攻撃であるBadSem(Backdoor Attack with Semantic Manipulation)を提案する。
この攻撃を行うために、色とオブジェクト属性を含むセマンティック操作に適したデータセットであるSIMBadを構築した。
広く使われている4つのVLMの広範囲な実験により、BadSemは平均的なASRを98%以上達成し、分布外のデータセットによく適応し、毒のモダリティをまたいで転送可能であることが示されている。
注意力可視化を用いた詳細な分析では,クリーン入力の正常な動作を維持しつつ,不一致条件下でのセマンティック・センシティブな領域に注目した。
攻撃を緩和するために、システムプロンプトに基づく2つの防衛戦略を試し、微調整を監督するが、どちらもセマンティックバックドアの緩和に失敗する。
我々の発見は、より安全なデプロイメントのために、VLMのセマンティック脆弱性に対処する緊急の必要性を浮き彫りにしている。
関連論文リスト
- SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
Invisible Backdoor Attack (IBA) を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。