論文の概要: Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
- arxiv url: http://arxiv.org/abs/2506.07214v1
- Date: Sun, 08 Jun 2025 16:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.715306
- Title: Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
- Title(参考訳): 静的操作による視覚言語モデルに対するバックドアアタック
- Authors: Zhiyuan Zhong, Zhen Sun, Yepang Liu, Xinlei He, Guanhong Tao,
- Abstract要約: BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。
実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。
我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 32.24294112337828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have shown remarkable performance, but are also vulnerable to backdoor attacks whereby the adversary can manipulate the model's outputs through hidden triggers. Prior attacks primarily rely on single-modality triggers, leaving the crucial cross-modal fusion nature of VLMs largely unexplored. Unlike prior work, we identify a novel attack surface that leverages cross-modal semantic mismatches as implicit triggers. Based on this insight, we propose BadSem (Backdoor Attack with Semantic Manipulation), a data poisoning attack that injects stealthy backdoors by deliberately misaligning image-text pairs during training. To perform the attack, we construct SIMBad, a dataset tailored for semantic manipulation involving color and object attributes. Extensive experiments across four widely used VLMs show that BadSem achieves over 98% average ASR, generalizes well to out-of-distribution datasets, and can transfer across poisoning modalities. Our detailed analysis using attention visualization shows that backdoored models focus on semantically sensitive regions under mismatched conditions while maintaining normal behavior on clean inputs. To mitigate the attack, we try two defense strategies based on system prompt and supervised fine-tuning but find that both of them fail to mitigate the semantic backdoor. Our findings highlight the urgent need to address semantic vulnerabilities in VLMs for their safer deployment.
- Abstract(参考訳): 視覚言語モデル(VLM)は優れた性能を示しているが、敵が隠れたトリガーを通じてモデルの出力を操作できるバックドア攻撃にも脆弱である。
以前の攻撃は主に単一モダリティトリガーに依存しており、VLMの重要な相互融合の性質はほとんど解明されていない。
従来の作業とは違って、モーダルなセマンティックミスマッチを暗黙のトリガーとして活用する新たな攻撃面を同定する。
この知見に基づいて、トレーニング中に画像テキストペアを意図的に誤アライメントすることにより、ステルスなバックドアを注入するデータ中毒攻撃であるBadSem(Backdoor Attack with Semantic Manipulation)を提案する。
この攻撃を行うために、色とオブジェクト属性を含むセマンティック操作に適したデータセットであるSIMBadを構築した。
広く使われている4つのVLMの広範囲な実験により、BadSemは平均的なASRを98%以上達成し、分布外のデータセットによく適応し、毒のモダリティをまたいで転送可能であることが示されている。
注意力可視化を用いた詳細な分析では,クリーン入力の正常な動作を維持しつつ,不一致条件下でのセマンティック・センシティブな領域に注目した。
攻撃を緩和するために、システムプロンプトに基づく2つの防衛戦略を試し、微調整を監督するが、どちらもセマンティックバックドアの緩和に失敗する。
我々の発見は、より安全なデプロイメントのために、VLMのセマンティック脆弱性に対処する緊急の必要性を浮き彫りにしている。
関連論文リスト
- Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Propaganda via AI? A Study on Semantic Backdoors in Large Language Models [7.282200564983221]
セマンティックバックドアは少量の毒コーパスで埋め込むことができる。
本稿では,意味論的エントロピーとモデル間の整合性解析を組み合わせたブラックボックス検出フレームワークであるRAVENを紹介する。
未検出セマンティックバックドアの実証評価
論文 参考訳(メタデータ) (2025-04-15T16:43:15Z) - Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
Invisible Backdoor Attack (IBA) を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。