論文の概要: Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.19269v1
- Date: Wed, 26 Feb 2025 16:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:25.691338
- Title: Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models
- Title(参考訳): 神経系解毒剤:前訓練視覚言語モデルにおけるバックドアの浄化のためのクラスワイズプロンプトチューニング
- Authors: Jiawei Kong, Hao Fang, Sihang Guo, Chenxi Qing, Bin Chen, Bin Wang, Shu-Tao Xia,
- Abstract要約: CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
- 参考スコア(独自算出の注目度): 42.81731204702258
- License:
- Abstract: While pre-trained Vision-Language Models (VLMs) such as CLIP exhibit excellent representational capabilities for multimodal data, recent studies have shown that they are vulnerable to backdoor attacks. To alleviate the threat, existing defense strategies primarily focus on fine-tuning the entire suspicious model, yet offer only marginal resistance to state-of-the-art attacks and often result in a decrease in clean accuracy, particularly in data-limited scenarios. Their failure may be attributed to the mismatch between insufficient fine-tuning data and massive parameters in VLMs. To address this challenge, we propose Class-wise Backdoor Prompt Tuning (CBPT) defense, an efficient and effective method that operates on the text prompts to indirectly purify the poisoned VLMs. Specifically, we first employ the advanced contrastive learning via our carefully crafted positive and negative samples, to effectively invert the backdoor triggers that are potentially adopted by the attacker. Once the dummy trigger is established, we utilize the efficient prompt tuning technique to optimize these class-wise text prompts for modifying the model's decision boundary to further reclassify the feature regions of backdoor triggers. Extensive experiments demonstrate that CBPT significantly mitigates backdoor threats while preserving model utility, e.g. an average Clean Accuracy (CA) of 58.86\% and an Attack Success Rate (ASR) of 0.39\% across seven mainstream backdoor attacks. These results underscore the superiority of our prompt purifying design to strengthen model robustness against backdoor attacks.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、マルチモーダルデータに優れた表現能力を示すが、最近の研究では、バックドア攻撃に弱いことが示されている。
脅威を軽減するため、既存の防衛戦略は主に疑わしいモデル全体を微調整することに重点を置いているが、最先端の攻撃に対する限界的な抵抗しか提供せず、特にデータ制限シナリオにおいて、クリーンな精度が低下することが多い。
これらの故障は、VLMにおける微調整の不十分なデータと大量のパラメータのミスマッチに起因する可能性がある。
この課題に対処するために,本論文のテキストプロンプトを間接的に浄化する効率的かつ効果的な方法であるCBPT(Class-wise Backdoor Prompt Tuning)ディフェンスを提案する。
具体的には、まず、慎重に作られた正と負のサンプルを通して高度なコントラスト学習を使用し、攻撃者が採用する可能性のあるバックドアトリガーを効果的に反転させる。
ダミートリガが確立されると、これらのクラスワイズテキストプロンプトを最適化し、モデルの決定境界を変更し、バックドアトリガの特徴領域を更に再分類する。
CBPTは、モデルユーティリティを保ちながらバックドアの脅威を著しく軽減し、例えば平均クリーン精度(CA)は58.86\%、アタック成功率(ASR)は7つのメインストリームバックドア攻撃で0.39\%である。
これらの結果は、バックドア攻撃に対するモデルロバスト性を強化するために、我々の迅速な純度設計の優位性を裏付けるものである。
関連論文リスト
- Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning [13.802845998402677]
マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,新しい防御手法としてRepulsive Visual Prompt Tuning (RVPT)を提案する。
論文 参考訳(メタデータ) (2024-12-29T08:09:20Z) - An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。
また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。
提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T02:03:27Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。