論文の概要: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2412.20392v1
- Date: Sun, 29 Dec 2024 08:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:23.563910
- Title: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning
- Title(参考訳): Repulsive Visual Prompt Tuning によるマルチモーダルバックドアモデルの構築
- Authors: Zhifang Zhang, Shuo He, Bingquan Shen, Lei Feng,
- Abstract要約: マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,新しい防御手法としてRepulsive Visual Prompt Tuning (RVPT)を提案する。
- 参考スコア(独自算出の注目度): 13.802845998402677
- License:
- Abstract: Multimodal contrastive learning models (e.g., CLIP) can learn high-quality representations from large-scale image-text datasets, yet they exhibit significant vulnerabilities to backdoor attacks, raising serious safety concerns. In this paper, we disclose that CLIP's vulnerabilities primarily stem from its excessive encoding of class-irrelevant features, which can compromise the model's visual feature resistivity to input perturbations, making it more susceptible to capturing the trigger patterns inserted by backdoor attacks. Inspired by this finding, we propose Repulsive Visual Prompt Tuning (RVPT), a novel defense approach that employs specially designed deep visual prompt tuning and feature-repelling loss to eliminate excessive class-irrelevant features while simultaneously optimizing cross-entropy loss to maintain clean accuracy. Unlike existing multimodal backdoor defense methods that typically require the availability of poisoned data or involve fine-tuning the entire model, RVPT leverages few-shot downstream clean samples and only tunes a small number of parameters. Empirical results demonstrate that RVPT tunes only 0.27\% of the parameters relative to CLIP, yet it significantly outperforms state-of-the-art baselines, reducing the attack success rate from 67.53\% to 2.76\% against SoTA attacks and effectively generalizing its defensive capabilities across multiple datasets.
- Abstract(参考訳): マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができるが、バックドア攻撃に対する重大な脆弱性を示し、深刻な安全性上の懸念を提起する。
本稿では、CLIPの脆弱性は、主にクラス非関連機能の過剰なエンコーディングによるものであり、入力摂動に対するモデルの視覚的特徴比抵抗を損なうおそれがあり、バックドアアタックによって挿入されるトリガーパターンのキャプチャがより容易であることを示す。
この発見にインスパイアされたRepulsive Visual Prompt Tuning (RVPT) は,高過度なクラス非関連特徴を排除し,同時にクロスエントロピー損失を最適化し,クリーンな精度を維持するために特別に設計された深層視覚刺激チューニングと特徴反発損失を利用する新しい防御手法である。
通常、有毒なデータの入手やモデル全体の微調整を必要とする既存のマルチモーダルバックドア防御法とは異なり、RVPTは数発の下流のクリーンサンプルを活用し、少数のパラメータのみをチューニングする。
実証的な結果は、RVPTがCLIPに対するパラメータの0.27\%しかチューニングしていないことを示しているが、最先端のベースラインを著しく上回り、SoTA攻撃に対する攻撃成功率を67.53\%から2.76\%に削減し、複数のデータセットにわたる防御能力を効果的に一般化している。
関連論文リスト
- TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Fisher Information guided Purification against Backdoor Attacks [22.412186735687786]
我々は、新しいバックドア浄化フレームワーク、Fisher Information Guided Purification (FIP)を提案する。
FIPは、バックドア効果の抑制と、クリーンなデータ分布の取得した知識を維持するためにモデルを支援する2つの新しい正規化器で構成されている。
さらに、Fast FIPと呼ばれる効率的なFIPを導入し、チューニング可能なパラメータの数を著しく削減し、約5倍のランタイムゲインを得る。
論文 参考訳(メタデータ) (2024-09-01T23:09:44Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Invariant Aggregator for Defending against Federated Backdoor Attacks [28.416262423174796]
フェデレートラーニングは、プライベートデータを直接共有することなく、複数のクライアントで高ユーティリティモデルをトレーニングすることを可能にする。
欠点として、フェデレートされた設定は、悪意のあるクライアントの存在下での様々な敵攻撃に対して、モデルを脆弱にする。
本稿では、集約された更新を一般的に有用である不変方向へリダイレクトする不変アグリゲータを提案する。
論文 参考訳(メタデータ) (2022-10-04T18:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。