Fugu-MT 論文翻訳(概要): SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs

論文の概要: SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs

arxiv url: http://arxiv.org/abs/2506.04743v1
Date: Thu, 05 Jun 2025 08:22:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.602201
Title: SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs
Title（参考訳）: SRD:VLMにおけるバックドアディフェンスのための強化学習型セマンティック摂動
Authors: Shuhan Xu, Siyuan Liang, Hongling Zheng, Yong Luo, Aishan Liu, Dacheng Tao,
Abstract要約: 攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。 SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
参考スコア（独自算出の注目度）: 57.880467106470775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have achieved remarkable performance in image captioning, but recent studies show they are vulnerable to backdoor attacks. Attackers can inject imperceptible perturbations-such as local pixel triggers or global semantic phrases-into the training data, causing the model to generate malicious, attacker-controlled captions for specific inputs. These attacks are hard to detect and defend due to their stealthiness and cross-modal nature. By analyzing attack samples, we identify two key vulnerabilities: (1) abnormal attention concentration on specific image regions, and (2) semantic drift and incoherence in generated captions. To counter this, we propose Semantic Reward Defense (SRD), a reinforcement learning framework that mitigates backdoor behavior without prior knowledge of triggers. SRD uses a Deep Q-Network to learn policies for applying discrete perturbations (e.g., occlusion, color masking) to sensitive image regions, aiming to disrupt the activation of malicious pathways. We design a semantic fidelity score as the reward signal, which jointly evaluates semantic consistency and linguistic fluency of the output, guiding the agent toward generating robust yet faithful captions. Experiments across mainstream VLMs and datasets show SRD reduces attack success rates to 5.6%, while preserving caption quality on clean inputs with less than 10% performance drop. SRD offers a trigger-agnostic, interpretable defense paradigm against stealthy backdoor threats in multimodal generative models.
Abstract（参考訳）: VLM(Vision-Language Models)は画像キャプションにおいて顕著な性能を発揮するが、最近の研究ではバックドア攻撃に弱いことが示されている。攻撃者は、訓練データにローカルピクセルトリガーやグローバルセマンティックフレーズなどの知覚不能な摂動を注入し、特定の入力に対して悪意のある攻撃的なキャプションを生成する。これらの攻撃は、そのステルス性とクロスモーダルな性質のために、検出と防御が難しい。攻撃サンプルを解析することにより,(1)特定の画像領域の注意集中異常,(2)生成されたキャプションのセマンティックドリフトと不整合の2つの重要な脆弱性を同定した。これに対応するために,前もってトリガの知識を必要とせず,バックドアの挙動を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。 SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動(例えば、オクルージョン、カラーマスキング)を適用するためのポリシーを学習し、悪意ある経路の活性化を阻害することを目的としている。提案手法は,文中の意味的一貫性と言語的親和性を協調的に評価する報奨信号として意味的忠実度スコアを設計し,頑健で忠実なキャプションを生成するためのエージェントを誘導する。主流のVLMやデータセットでの実験では、SRDは攻撃成功率を5.6%に下げ、クリーンな入力のキャプション品質を10%未満のパフォーマンス低下で保持している。 SRDは、マルチモーダル生成モデルにおけるステルスなバックドア脅威に対するトリガーに依存しない、解釈可能な防御パラダイムを提供する。

関連論文リスト

Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation [32.24294112337828]
BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-06-08T16:40:40Z)
Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
Gungnir: Exploiting Stylistic Features in Images for Backdoor Attacks on Diffusion Models [8.672029086609884]
拡散モデル(DM)はバックドア攻撃に対して脆弱である。 Gungnirは、入力画像内のスタイルトリガを通じて、攻撃者がDMのバックドアをアクティベートできる新しい方法である。本手法は,クリーン画像と知覚的に区別できないトリガー埋め込み画像を生成する。
論文参考訳（メタデータ） (2025-02-28T02:08:26Z)
Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文参考訳（メタデータ） (2024-12-11T19:54:14Z)
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。