論文の概要: Concept-Guided Backdoor Attack on Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.00713v1
- Date: Sun, 30 Nov 2025 03:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.376213
- Title: Concept-Guided Backdoor Attack on Vision Language Models
- Title(参考訳): 視覚言語モデルにおける概念誘導型バックドアアタック
- Authors: Haoyu Shen, Weimin Lyu, Haotian Xu, Tengfei Ma,
- Abstract要約: 視覚言語モデル(VLM)に対する概念誘導型バックドアアタックを導入する。
まず、CTP(Concept-Thresholding Poisoning)は、自然画像の明示的な概念をトリガーとして使用する。
第2のCGUB(CBL-Guided Unseen Backdoor)は、内部概念のアクティベーションに介入するために、トレーニング中にConcept Bottleneck Model(CBM)を活用する。
- 参考スコア(独自算出の注目度): 12.3207887580232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved impressive progress in multimodal text generation, yet their rapid adoption raises increasing concerns about security vulnerabilities. Existing backdoor attacks against VLMs primarily rely on explicit pixel-level triggers or imperceptible perturbations injected into images. While effective, these approaches reduce stealthiness and remain vulnerable to image-based defenses. We introduce concept-guided backdoor attacks, a new paradigm that operates at the semantic concept level rather than on raw pixels. We propose two different attacks. The first, Concept-Thresholding Poisoning (CTP), uses explicit concepts in natural images as triggers: only samples containing the target concept are poisoned, causing the model to behave normally in all other cases but consistently inject malicious outputs whenever the concept appears. The second, CBL-Guided Unseen Backdoor (CGUB), leverages a Concept Bottleneck Model (CBM) during training to intervene on internal concept activations, while discarding the CBM branch at inference time to keep the VLM unchanged. This design enables systematic replacement of a targeted label in generated text (for example, replacing "cat" with "dog"), even when the replacement behavior never appears in the training data. Experiments across multiple VLM architectures and datasets show that both CTP and CGUB achieve high attack success rates while maintaining moderate impact on clean-task performance. These findings highlight concept-level vulnerabilities as a critical new attack surface for VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルテキスト生成において目覚ましい進歩を遂げている。
既存のVLMに対するバックドア攻撃は、主に画像に挿入される明示的なピクセルレベルのトリガーや知覚不能な摂動に依存している。
効果はあるものの、これらのアプローチはステルスネスを減らし、画像ベースの防御に弱いままである。
概念誘導型バックドアアタックは、生のピクセルではなく、セマンティックな概念レベルで機能する新しいパラダイムである。
我々は2つの異なる攻撃を提案する。
ターゲット概念を含むサンプルだけが毒を盛られ、他のすべてのケースで正常に振る舞うが、概念が現れるたびに常に悪意のある出力を注入する。
第2のCGUB(CBL-Guided Unseen Backdoor)は、内部概念のアクティベーションに介入するため、トレーニング中にConcept Bottleneck Model(CBM)を活用し、推論時にCBMブランチを破棄してVLMを一定に保つ。
この設計は、トレーニングデータに置換動作が決して現れない場合でも、生成されたテキスト(例えば"cat"を"dog"に置き換える)でターゲットラベルを体系的に置き換えることを可能にする。
複数のVLMアーキテクチャとデータセットの実験により、CTPとCGUBの両方が高い攻撃成功率を達成し、クリーンタスクのパフォーマンスに適度な影響を維持していることが示された。
これらの知見は、概念レベルの脆弱性がVLMにとって重要な新たな攻撃面であることを示している。
関連論文リスト
- TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models [63.51290426425441]
バックドア付きVLAエージェントは、プレインジェクトされたバックドアによって隠蔽的にトリガーされ、敵のアクションを実行することができる。
我々は,VLAモデルに対するターゲットバックドア攻撃について検討し,ブラックボックスファインチューニングによる攻撃を可能にする新しいフレームワークであるTabVLAを紹介した。
我々の研究は、バックドア操作をターゲットにしたVLAモデルの脆弱性を強調し、より高度な防御の必要性を強調します。
論文 参考訳(メタデータ) (2025-10-13T02:45:48Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation [32.24294112337828]
BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。
実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。
我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-06-08T16:40:40Z) - SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。