論文の概要: CBV: Clean-label Backdoor Attacks on Vision Language Models via Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.02202v1
- Date: Mon, 04 May 2026 04:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.132963
- Title: CBV: Clean-label Backdoor Attacks on Vision Language Models via Diffusion Models
- Title(参考訳): CBV:拡散モデルによる視覚言語モデルに対するクリーンラベルバックドア攻撃
- Authors: Ji Guo, Xiaolong Qin, Cencen Liu, Jielei Wang, Jierun Chen, Wenbo Jiang,
- Abstract要約: 拡散モデル(CBV)を用いた視覚言語モデル(VLM)のクリーンラベルバックドア攻撃を提案する。
CBVは拡散モデルの逆生成過程のスコアを変更して、有毒試料の生成を誘導する。
我々は,MSCOCOとVQA v2を4つの代表VLMで評価し,通常の機能を保ちながら80%以上のASRを実現した。
- 参考スコア(独自算出の注目度): 6.645133359197536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success in tasks such as image captioning and visual question answering (VQA). However, as their applications become increasingly widespread, recent studies have revealed that VLMs are vulnerable to backdoor attacks. Existing backdoor attacks on VLMs primarily rely on data poisoning by adding visual triggers and modifying text labels, where the induced image-text mismatch makes poisoned samples easy to detect. To address this limitation, we propose the Clean-Label Backdoor Attack on VLMs via Diffusion Models (CBV), which leverages diffusion models to generate natural poisoned examples via score matching. Specifically, CBV modifies the score during the reverse generation process of the diffusion model to guide the generation of poisoned samples that contain triggered image features. To further enhance the effectiveness of the attack, we incorporate the textual information of the triggered images as multimodal guidance during generation. Moreover, to enhance stealthiness, we introduce a GradCAM-guided Mask (GM) that restricts modifications to only the most semantically important regions, rather than the entire image. We evaluate our method on MSCOCO and VQA v2 with four representative VLMs, achieving over 80% ASR while preserving normal functionality.
- Abstract(参考訳): 視覚言語モデル(VLM)は画像キャプションや視覚的質問応答(VQA)といったタスクにおいて顕著な成功を収めている。
しかし、その応用がますます広まるにつれて、最近の研究でVLMはバックドア攻撃に弱いことが判明している。
既存のVLMに対するバックドア攻撃は主に、視覚的トリガーの追加とテキストラベルの変更によるデータ中毒に依存しており、誘導された画像テキストミスマッチにより、有毒なサンプルの検出が容易になる。
この制限に対処するため,拡散モデル(CBV)によるVLMのクリーンラベルバックドア攻撃(CBV)を提案する。
具体的には、CBVは拡散モデルの逆生成過程におけるスコアを変更して、トリガ画像の特徴を含む有毒試料の生成を誘導する。
攻撃の有効性をさらに高めるために、生成中のマルチモーダルガイダンスとして、トリガ画像のテキスト情報を組み込む。
さらに、ステルス性を高めるために、画像全体ではなく、最も意味的に重要な領域にのみ変更を制限するGradCAM誘導マスク(GM)を導入する。
我々は,MSCOCOとVQA v2を4つの代表VLMで評価し,通常の機能を保ちながら80%以上のASRを実現した。
関連論文リスト
- Concept-Guided Backdoor Attack on Vision Language Models [12.3207887580232]
視覚言語モデル(VLM)に対する概念誘導型バックドアアタックを導入する。
まず、CTP(Concept-Thresholding Poisoning)は、自然画像の明示的な概念をトリガーとして使用する。
第2のCGUB(CBL-Guided Unseen Backdoor)は、内部概念のアクティベーションに介入するために、トレーニング中にConcept Bottleneck Model(CBM)を活用する。
論文 参考訳(メタデータ) (2025-11-30T03:24:23Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - On the Feasibility of Poisoning Text-to-Image AI Models via Adversarial Mislabeling [24.730395152276927]
インターネットから得られる何百万もの画像に対してテキスト・画像生成モデルを訓練し、それぞれが視覚言語モデル(VLM)によって生成された詳細なキャプションと組み合わせる。
VLMは、画像に摂動を付加し、VLMを誤ったキャプションを発生させる、ステルスな敵攻撃に対して脆弱である。
潜在的な防御効果は有効であるが、アダプティブアタッカーによる攻撃を標的とし回避することができる。
論文 参考訳(メタデータ) (2025-06-27T03:13:47Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models [33.120141513366136]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:46:04Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。