論文の概要: BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2602.17168v1
- Date: Thu, 19 Feb 2026 08:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.809783
- Title: BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning
- Title(参考訳): BadCLIP++:マルチモーダルコントラスト学習における静的かつ永続的なバックドア
- Authors: Siyuan Liang, Yongcheng Jing, Yingjie Wang, Jiaxing Huang, Ee-chien Chang, Dacheng Tao,
- Abstract要約: マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
- 参考スコア(独自算出の注目度): 73.46118996284888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on backdoor attacks against multimodal contrastive learning models faces two key challenges: stealthiness and persistence. Existing methods often fail under strong detection or continuous fine-tuning, largely due to (1) cross-modal inconsistency that exposes trigger patterns and (2) gradient dilution at low poisoning rates that accelerates backdoor forgetting. These coupled causes remain insufficiently modeled and addressed. We propose BadCLIP++, a unified framework that tackles both challenges. For stealthiness, we introduce a semantic-fusion QR micro-trigger that embeds imperceptible patterns near task-relevant regions, preserving clean-data statistics while producing compact trigger distributions. We further apply target-aligned subset selection to strengthen signals at low injection rates. For persistence, we stabilize trigger embeddings via radius shrinkage and centroid alignment, and stabilize model parameters through curvature control and elastic weight consolidation, maintaining solutions within a low-curvature wide basin resistant to fine-tuning. We also provide the first theoretical analysis showing that, within a trust region, gradients from clean fine-tuning and backdoor objectives are co-directional, yielding a non-increasing upper bound on attack success degradation. Experiments demonstrate that with only 0.3% poisoning, BadCLIP++ achieves 99.99% attack success rate (ASR) in digital settings, surpassing baselines by 11.4 points. Across nineteen defenses, ASR remains above 99.90% with less than 0.8% drop in clean accuracy. The method further attains 65.03% success in physical attacks and shows robustness against watermark removal defenses.
- Abstract(参考訳): マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
既存の方法は、(1)トリガーパターンを露出するクロスモーダル不整合、(2)低中毒率での勾配希釈により、バックドアの忘れを早めるため、強い検出や連続的な微調整で失敗することが多い。
これらの結合した原因は、十分にモデル化され、対処される。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域の近傍に認識不能なパターンを埋め込んだセマンティックフュージョンQRマイクロトリガーを導入し,クリーンデータ統計を保存し,コンパクトなトリガ分布を生成する。
さらに、低射出速度で信号を強化するために、ターゲット整列部分選択を適用する。
持続性については,半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化し,曲率制御と弾性重み付けによりモデルパラメータを安定化し,微調整に抵抗する低曲率広流域内における解を維持する。
また、信頼領域内では、クリーンな微調整とバックドアの目的からの勾配が同一方向であり、攻撃成功の劣化に非増加的な上限をもたらすことを示す最初の理論的分析を行った。
実験によると、BadCLIP++はわずか0.3%で、デジタル環境での攻撃成功率(ASR)が99.99%に達し、ベースラインを11.4ポイント越えている。
19回の防衛では、ASRは99.90%以上であり、精度は0.8%以下である。
この方法はさらに65.03%の物理的攻撃の成功を達成し、透かし除去防御に対する堅牢性を示す。
関連論文リスト
- CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning [7.5200963577855875]
オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、バックドア攻撃に対して本質的に脆弱である。
我々は,厳格な予算の下で高い盗難と破壊性を達成すべく,CS-GBA(Critical Sample-based Gradient-Guided Backdoor Attack)を提案する。
論文 参考訳(メタデータ) (2026-01-15T13:57:52Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。