論文の概要: CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning
- arxiv url: http://arxiv.org/abs/2409.17601v3
- Date: Fri, 15 Nov 2024 02:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:30.119459
- Title: CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning
- Title(参考訳): cleanerCLIP: コントラスト学習におけるバックドアディフェンスのためのきめ細かい対人的強化
- Authors: Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao,
- Abstract要約: バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
- 参考スコア(独自算出の注目度): 53.766434746801366
- License:
- Abstract: Pre-trained large models for multimodal contrastive learning, such as CLIP, have been widely recognized in the industry as highly susceptible to data-poisoned backdoor attacks. This poses significant risks to downstream model training. In response to such potential threats, finetuning offers a simpler and more efficient defense choice compared to retraining large models with augmented data. In the supervised learning domain, fine-tuning defense strategies can achieve excellent defense performance. However, in the unsupervised and semi-supervised domain, we find that when CLIP faces some complex attack techniques, the existing fine-tuning defense strategy, CleanCLIP, has some limitations on defense performance. The synonym substitution of its text-augmentation is insufficient to enhance the text feature space. To compensate for this weakness, we improve it by proposing a fine-grained \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) to cut off feature connections of backdoor triggers. We randomly select a few samples for positive and negative subtext generation at each epoch of CleanCLIP, and align the subtexts to the images to strengthen the text self-supervision. We evaluate the effectiveness of our TA-Cleaner against six attack algorithms and conduct comprehensive zero-shot classification tests on ImageNet1K. Our experimental results demonstrate that TA-Cleaner achieves state-of-the-art defensiveness among finetuning-based defense techniques. Even when faced with the novel attack technique BadCLIP, our TA-Cleaner outperforms CleanCLIP by reducing the ASR of Top-1 and Top-10 by 52.02\% and 63.88\%, respectively.
- Abstract(参考訳): CLIPのようなマルチモーダル・コントラスト学習のための事前訓練済みの大規模モデルは、業界ではデータポゾンによるバックドア攻撃の影響を受けやすいと広く認識されている。
これは下流モデルのトレーニングに重大なリスクをもたらす。
このような潜在的な脅威に対応するため、ファインタニングは、強化されたデータで大規模なモデルを再訓練するよりも、よりシンプルで効率的な防御選択を提供する。
教師付き学習領域では、微調整防衛戦略は優れた防御性能を達成することができる。
しかし、教師なし・半教師なしの領域では、CLIPがいくつかの複雑な攻撃技術に直面している場合、既存の微調整防衛戦略であるCleanCLIPは防御性能にいくつかの制限がある。
テキスト拡張の同義語置換は、テキスト特徴空間を強化するには不十分である。
この弱点を補うために、バックドアトリガの特徴的接続を遮断するために、細粒度の \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) を提案する。
クリーンなCLIPの各エポックにおいて、正および負のサブテキスト生成のためのサンプルをランダムに選択し、そのサブテキストを画像にアライメントして、テキストの自己監督を強化する。
6つの攻撃アルゴリズムに対するTA-Cleanerの有効性を評価し,ImageNet1K上で包括的なゼロショット分類試験を行う。
実験により, TA-Cleanerはファインタニングによる防御技術において, 最先端の防御性を達成できることが確認された。
新規攻撃技術BadCLIPに直面しても, TA-CleanerはTop-1とTop-10のASRをそれぞれ52.02\%, 63.88\%減らしてクリーンCLIPより優れていた。
関連論文リスト
- Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。
現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。
具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:41Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Attack Agnostic Adversarial Defense via Visual Imperceptible Bound [70.72413095698961]
本研究の目的は、目視攻撃と目視攻撃の両方に対して一定の範囲内で堅牢な防衛モデルを設計することである。
提案するディフェンスモデルは,MNIST,CIFAR-10,Tiny ImageNetデータベース上で評価される。
提案アルゴリズムは攻撃非依存であり,攻撃アルゴリズムの知識を必要としない。
論文 参考訳(メタデータ) (2020-10-25T23:14:26Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。