論文の概要: Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP
- arxiv url: http://arxiv.org/abs/2412.00727v1
- Date: Sun, 01 Dec 2024 08:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:29.944274
- Title: Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP
- Title(参考訳): パーターブとリカバリ:CLIPからの効果的なバックドア除去のための微調整
- Authors: Naman Deep Singh, Francesco Croce, Matthias Hein,
- Abstract要約: 本論文は, 微調整による潜在的有毒モデルのクリーニングに焦点を当てた。
BlendedやBadNetのバックドア攻撃で使用される単純な構造的トリガに対して,既存のクリーニング技術は有効ではないことを示す。
PAR、Perturb、Recoverは驚くほどシンプルで効果的なメカニズムで、CLIPモデルからバックドアを取り除きます。
- 参考スコア(独自算出の注目度): 46.29675652378619
- License:
- Abstract: Vision-Language models like CLIP have been shown to be highly effective at linking visual perception and natural language understanding, enabling sophisticated image-text capabilities, including strong retrieval and zero-shot classification performance. Their widespread use, as well as the fact that CLIP models are trained on image-text pairs from the web, make them both a worthwhile and relatively easy target for backdoor attacks. As training foundational models, such as CLIP, from scratch is very expensive, this paper focuses on cleaning potentially poisoned models via fine-tuning. We first show that existing cleaning techniques are not effective against simple structured triggers used in Blended or BadNet backdoor attacks, exposing a critical vulnerability for potential real-world deployment of these models. Then, we introduce PAR, Perturb and Recover, a surprisingly simple yet effective mechanism to remove backdoors from CLIP models. Through extensive experiments across different encoders and types of backdoor attacks, we show that PAR achieves high backdoor removal rate while preserving good standard performance. Finally, we illustrate that our approach is effective even only with synthetic text-image pairs, i.e. without access to real training data. The code and models are available at \href{https://github.com/nmndeep/PerturbAndRecover}{https://github.com/nmndeep/PerturbAndRecover}.
- Abstract(参考訳): CLIPのような視覚言語モデルは、視覚知覚と自然言語理解のリンクに非常に効果的であることが示されており、強力な検索やゼロショット分類性能を含む高度な画像テキスト機能を実現している。
広く使われていることと、CLIPモデルがWebからイメージテキストペアでトレーニングされているという事実は、バックドア攻撃に対する価値と比較的容易なターゲットである。
CLIPなどの基礎モデルをスクラッチからトレーニングするのは非常にコストがかかるため、本論文では、微調整により潜在的に有毒なモデルをクリーニングすることに焦点を当てる。
最初に、既存のクリーニング技術は、BlendedやBadNetのバックドア攻撃で使用される単純な構造的トリガに対して効果がないことを示す。
次に、PAR、Perturb、Recoverを紹介します。これは驚くほどシンプルで効果的なメカニズムで、CLIPモデルからバックドアを取り除きます。
異なるエンコーダと種類のバックドア攻撃に対する広範な実験を通して、PARは、優れた標準性能を維持しながら、高いバックドア除去率を達成することを示す。
最後に、本手法は、合成テキストイメージペア、すなわち実際のトレーニングデータにアクセスできない場合にのみ有効であることを示す。
コードとモデルは \href{https://github.com/nmndeep/PerturbAndRecover}{https://github.com/nmndeep/PerturbAndRecover} で公開されている。
関連論文リスト
- Memory Backdoor Attacks on Neural Networks [3.2720947374803777]
本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
論文 参考訳(メタデータ) (2024-11-21T16:09:16Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection [10.99542790672233]
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Single Image Backdoor Inversion via Robust Smoothed Classifiers [76.66635991456336]
隠れたバックドアを1枚の画像で復元できるバックドア・インバージョンのための新しいアプローチを提案する。
本研究では,1枚の画像で隠れたバックドアを復元できる,バックドア・インバージョンのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-01T03:37:42Z) - Architectural Backdoors in Neural Networks [27.315196801989032]
モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
論文 参考訳(メタデータ) (2022-06-15T22:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。