論文の概要: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2412.20392v3
- Date: Fri, 23 May 2025 00:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.723216
- Title: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning
- Title(参考訳): Repulsive Visual Prompt Tuning によるマルチモーダルバックドアモデルの構築
- Authors: Zhifang Zhang, Shuo He, Haobo Wang, Bingquan Shen, Lei Feng,
- Abstract要約: マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,視覚的プロンプトチューニングと特殊に設計された機能的損失を利用した新しい防御手法であるRepulsive Visual Prompt Tuning (RVPT)を提案する。
- 参考スコア(独自算出の注目度): 19.638259197558625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal contrastive learning models (e.g., CLIP) can learn high-quality representations from large-scale image-text datasets, while they exhibit significant vulnerabilities to backdoor attacks, raising serious safety concerns. In this paper, we reveal that CLIP's vulnerabilities primarily stem from its tendency to encode features beyond in-dataset predictive patterns, compromising its visual feature resistivity to input perturbations. This makes its encoded features highly susceptible to being reshaped by backdoor triggers. To address this challenge, we propose Repulsive Visual Prompt Tuning (RVPT), a novel defense approach that employs deep visual prompt tuning with a specially designed feature-repelling loss. Specifically, RVPT adversarially repels the encoded features from deeper layers while optimizing the standard cross-entropy loss, ensuring that only predictive features in downstream tasks are encoded, thereby enhancing CLIP's visual feature resistivity against input perturbations and mitigating its susceptibility to backdoor attacks. Unlike existing multimodal backdoor defense methods that typically require the availability of poisoned data or involve fine-tuning the entire model, RVPT leverages few-shot downstream clean samples and only tunes a small number of parameters. Empirical results demonstrate that RVPT tunes only 0.27\% of the parameters in CLIP, yet it significantly outperforms state-of-the-art defense methods, reducing the attack success rate from 89.70\% to 2.76\% against the most advanced multimodal attacks on ImageNet and effectively generalizes its defensive capabilities across multiple datasets.
- Abstract(参考訳): マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習すると同時に、バックドア攻撃に対する重大な脆弱性を示し、深刻な安全性上の懸念を提起する。
本稿では,CLIPの脆弱性は,データ内の予測パターンを超えた特徴を符号化する傾向に起因し,入力摂動に対する視覚的特徴比が向上することを明らかにする。
これにより、エンコードされた特徴はバックドアトリガーによって形を変えられる。
この課題に対処するために,特殊に設計された機能的損失を伴う深層視覚的プロンプトチューニングを用いた新しい防御手法であるRepulsive Visual Prompt Tuning (RVPT)を提案する。
具体的には、RVPTは、標準のクロスエントロピー損失を最適化し、下流タスクにおける予測的特徴のみを符号化することで、入力摂動に対するCLIPの視覚的特徴比を向上し、バックドアアタックに対する感受性を緩和する。
通常、有毒なデータの入手やモデル全体の微調整を必要とする既存のマルチモーダルバックドア防御法とは異なり、RVPTは数発の下流のクリーンサンプルを活用し、少数のパラメータのみをチューニングする。
実証的な結果によると、RVPTはCLIPのパラメータの0.27\%しか調整していないが、最先端の防御手法を著しく上回り、ImageNetの最も先進的なマルチモーダル攻撃に対して攻撃成功率を89.70\%から2.76\%に下げ、複数のデータセットでその防御能力を効果的に一般化している。
関連論文リスト
- R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Invariant Aggregator for Defending against Federated Backdoor Attacks [28.416262423174796]
フェデレートラーニングは、プライベートデータを直接共有することなく、複数のクライアントで高ユーティリティモデルをトレーニングすることを可能にする。
欠点として、フェデレートされた設定は、悪意のあるクライアントの存在下での様々な敵攻撃に対して、モデルを脆弱にする。
本稿では、集約された更新を一般的に有用である不変方向へリダイレクトする不変アグリゲータを提案する。
論文 参考訳(メタデータ) (2022-10-04T18:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。