論文の概要: BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection
- arxiv url: http://arxiv.org/abs/2405.15269v1
- Date: Fri, 24 May 2024 06:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:50:32.698233
- Title: BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection
- Title(参考訳): BDetCLIP:マルチモーダルプロンプトコントラスト試験時間バックドア検出
- Authors: Yuwei Niu, Shuo He, Qi Wei, Feng Liu, Lei Feng,
- Abstract要約: 対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
- 参考スコア(独自算出の注目度): 11.650929372148521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal contrastive learning methods (e.g., CLIP) have shown impressive zero-shot classification performance due to their strong ability to joint representation learning for visual and textual modalities. However, recent research revealed that multimodal contrastive learning on poisoned pre-training data with a small proportion of maliciously backdoored data can induce backdoored CLIP that could be attacked by inserted triggers in downstream tasks with a high success rate. To defend against backdoor attacks on CLIP, existing defense methods focus on either the pre-training stage or the fine-tuning stage, which would unfortunately cause high computational costs due to numerous parameter updates. In this paper, we provide the first attempt at a computationally efficient backdoor detection method to defend against backdoored CLIP in the inference stage. We empirically find that the visual representations of backdoored images are insensitive to both benign and malignant changes in class description texts. Motivated by this observation, we propose BDetCLIP, a novel test-time backdoor detection method based on contrastive prompting. Specifically, we first prompt the language model (e.g., GPT-4) to produce class-related description texts (benign) and class-perturbed random texts (malignant) by specially designed instructions. Then, the distribution difference in cosine similarity between images and the two types of class description texts can be used as the criterion to detect backdoor samples. Extensive experiments validate that our proposed BDetCLIP is superior to state-of-the-art backdoor detection methods, in terms of both effectiveness and efficiency.
- Abstract(参考訳): マルチモーダルコントラスト学習法(例えば、CLIP)は、視覚的・テキスト的モダリティのための共同表現学習能力の強いため、印象的なゼロショット分類性能を示した。
しかし最近の研究では、悪質なバックドアデータが少ない有毒プレトレーニングデータに対するマルチモーダルコントラスト学習が、下流タスクの挿入トリガによって攻撃される可能性のあるバックドアCLIPを、高い成功率で誘導できることが明らかになった。
CLIPに対するバックドア攻撃を防御するために、既存の防御手法は事前訓練段階と微調整段階の両方に重点を置いている。
本稿では,計算効率のよいバックドア検出手法の最初の試みとして,推論段階におけるバックドアCLIPの防御について述べる。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
そこで本研究では,コントラスト的プロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
具体的には、まず言語モデル(例えば、GPT-4)に、クラスに関連する記述テキスト(良性)とクラス摂動ランダムテキスト(良性)を特別に設計した命令で生成するよう促す。
そして、画像と2種類のクラス記述テキストとのコサイン類似性の分布差を基準として、バックドアサンプルを検出する。
提案したBDetCLIPは,有効性と有効性の両方の観点から,最先端のバックドア検出法よりも優れていることが実証された。
関連論文リスト
- T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection
on Open-Set Classification Tasks [51.78558228584093]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
両モデルがバックドアされている場合でも,バックドアが検出可能であることを示す。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。