論文の概要: SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs
- arxiv url: http://arxiv.org/abs/2506.04743v1
- Date: Thu, 05 Jun 2025 08:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.602201
- Title: SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs
- Title(参考訳): SRD:VLMにおけるバックドアディフェンスのための強化学習型セマンティック摂動
- Authors: Shuhan Xu, Siyuan Liang, Hongling Zheng, Yong Luo, Aishan Liu, Dacheng Tao,
- Abstract要約: 攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
- 参考スコア(独自算出の注目度): 57.880467106470775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable performance in image captioning, but recent studies show they are vulnerable to backdoor attacks. Attackers can inject imperceptible perturbations-such as local pixel triggers or global semantic phrases-into the training data, causing the model to generate malicious, attacker-controlled captions for specific inputs. These attacks are hard to detect and defend due to their stealthiness and cross-modal nature. By analyzing attack samples, we identify two key vulnerabilities: (1) abnormal attention concentration on specific image regions, and (2) semantic drift and incoherence in generated captions. To counter this, we propose Semantic Reward Defense (SRD), a reinforcement learning framework that mitigates backdoor behavior without prior knowledge of triggers. SRD uses a Deep Q-Network to learn policies for applying discrete perturbations (e.g., occlusion, color masking) to sensitive image regions, aiming to disrupt the activation of malicious pathways. We design a semantic fidelity score as the reward signal, which jointly evaluates semantic consistency and linguistic fluency of the output, guiding the agent toward generating robust yet faithful captions. Experiments across mainstream VLMs and datasets show SRD reduces attack success rates to 5.6%, while preserving caption quality on clean inputs with less than 10% performance drop. SRD offers a trigger-agnostic, interpretable defense paradigm against stealthy backdoor threats in multimodal generative models.
- Abstract(参考訳): VLM(Vision-Language Models)は画像キャプションにおいて顕著な性能を発揮するが、最近の研究ではバックドア攻撃に弱いことが示されている。
攻撃者は、訓練データにローカルピクセルトリガーやグローバルセマンティックフレーズなどの知覚不能な摂動を注入し、特定の入力に対して悪意のある攻撃的なキャプションを生成する。
これらの攻撃は、そのステルス性とクロスモーダルな性質のために、検出と防御が難しい。
攻撃サンプルを解析することにより,(1)特定の画像領域の注意集中異常,(2)生成されたキャプションのセマンティックドリフトと不整合の2つの重要な脆弱性を同定した。
これに対応するために,前もってトリガの知識を必要とせず,バックドアの挙動を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動(例えば、オクルージョン、カラーマスキング)を適用するためのポリシーを学習し、悪意ある経路の活性化を阻害することを目的としている。
提案手法は,文中の意味的一貫性と言語的親和性を協調的に評価する報奨信号として意味的忠実度スコアを設計し,頑健で忠実なキャプションを生成するためのエージェントを誘導する。
主流のVLMやデータセットでの実験では、SRDは攻撃成功率を5.6%に下げ、クリーンな入力のキャプション品質を10%未満のパフォーマンス低下で保持している。
SRDは、マルチモーダル生成モデルにおけるステルスなバックドア脅威に対するトリガーに依存しない、解釈可能な防御パラダイムを提供する。
関連論文リスト
- Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
Invisible Backdoor Attack (IBA) を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文 参考訳(メタデータ) (2024-12-11T19:54:14Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。