論文の概要: Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP
- arxiv url: http://arxiv.org/abs/2502.19269v2
- Date: Sun, 21 Sep 2025 11:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.807661
- Title: Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP
- Title(参考訳): 神経性解毒剤:CLIPのバックドアを浄化するためのクラスワイズプロンプトチューニング
- Authors: Jiawei Kong, Hao Fang, Sihang Guo, Chenxi Qing, Kuofeng Gao, Bin Chen, Shu-Tao Xia, Ke Xu,
- Abstract要約: CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
- 参考スコア(独自算出の注目度): 51.04452017089568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While pre-trained Vision-Language Models (VLMs) such as CLIP exhibit impressive representational capabilities for multimodal data, recent studies have revealed their vulnerability to backdoor attacks. To alleviate the threat, existing defense strategies primarily focus on fine-tuning the entire suspicious model. However, the substantial model parameters increase the difficulty of reaching a stable and consistent optimization direction, limiting their resistance against state-of-the-art attacks and often resulting in a degradation of clean accuracy. To address this challenge, we propose Class-wise Backdoor Prompt Tuning (CBPT), an efficient and effective defense mechanism that operates on text prompts to indirectly purify poisoned CLIP. Specifically, we first employ the advanced contrastive learning via carefully crafted positive and negative samples, to effectively invert the backdoor triggers that are potentially adopted by the attacker. Once the dummy trigger is established, we leverage three well-designed loss functions to optimize these class-wise text prompts, modifying the model's decision boundary and further reclassifying the feature regions affected by backdoor triggers. Extensive experiments demonstrate that CBPT significantly mitigates backdoor threats while preserving model utility, e.g. an average Clean Accuracy (CA) of 58.83% and an Attack Success Rate (ASR) of 0.39% across seven mainstream backdoor attacks. These results underscore the superiority of our prompt purifying design to strengthen CLIP's robustness against backdoor attacks.
- Abstract(参考訳): CLIPのような事前訓練されたビジョンランゲージモデル(VLM)は、マルチモーダルデータに対する印象的な表現能力を示しているが、最近の研究では、バックドア攻撃に対する脆弱性を明らかにしている。
脅威を軽減するため、既存の防衛戦略は主に疑わしいモデル全体を微調整することに焦点を当てている。
しかし、実質的なモデルパラメータは、安定で一貫した最適化方向に到達することの難しさを増大させ、最先端攻撃に対する抵抗を制限し、しばしばクリーンな精度を低下させる。
この課題に対処するために,テキストのプロンプトによって間接的に汚染されたCLIPを浄化する,効率的かつ効果的な防御機構であるCBPT(Class-wise Backdoor Prompt Tuning)を提案する。
具体的には、まず、慎重に製作された正と負のサンプルを用いて高度なコントラスト学習を用い、攻撃者が採用する可能性のあるバックドアトリガーを効果的に反転させる。
ダミートリガが確立されると、3つのよく設計された損失関数を利用してこれらのクラスワイドテキストプロンプトを最適化し、モデルの判断境界を変更し、バックドアトリガによって影響を受ける特徴領域をさらに分類する。
CBPTは、モデルユーティリティを保ちながらバックドアの脅威を著しく軽減し、例えば平均クリーン精度(CA)は58.83%、アタック成功率(ASR)は7つの主要なバックドア攻撃で0.39%である。
これらの結果は, バックドア攻撃に対するCLIPの堅牢性を高めるために, 迅速な清浄設計の優位性を裏付けるものである。
関連論文リスト
- InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning [13.802845998402677]
マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,新しい防御手法としてRepulsive Visual Prompt Tuning (RVPT)を提案する。
論文 参考訳(メタデータ) (2024-12-29T08:09:20Z) - An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。
また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。
提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T02:03:27Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。