論文の概要: Detecting Backdoor Samples in Contrastive Language Image Pretraining
- arxiv url: http://arxiv.org/abs/2502.01385v2
- Date: Mon, 10 Feb 2025 08:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 17:37:34.500751
- Title: Detecting Backdoor Samples in Contrastive Language Image Pretraining
- Title(参考訳): コントラスト言語画像プレトレーニングにおけるバックドアサンプルの検出
- Authors: Hanxun Huang, Sarah Erfani, Yige Li, Xingjun Ma, James Bailey,
- Abstract要約: 対照的に、CLIP (Contrastive Language-image Pretraining) は、バックドア攻撃の危険性が指摘されている。
これにより、CLIPを使用して未調査のWebデータ上で大規模なモデルを事前トレーニングする現在のプラクティスに対するセキュリティ上の懸念が高まる。
- 参考スコア(独自算出の注目度): 32.85582585781569
- License:
- Abstract: Contrastive language-image pretraining (CLIP) has been found to be vulnerable to poisoning backdoor attacks where the adversary can achieve an almost perfect attack success rate on CLIP models by poisoning only 0.01\% of the training dataset. This raises security concerns on the current practice of pretraining large-scale models on unscrutinized web data using CLIP. In this work, we analyze the representations of backdoor-poisoned samples learned by CLIP models and find that they exhibit unique characteristics in their local subspace, i.e., their local neighborhoods are far more sparse than that of clean samples. Based on this finding, we conduct a systematic study on detecting CLIP backdoor attacks and show that these attacks can be easily and efficiently detected by traditional density ratio-based local outlier detectors, whereas existing backdoor sample detection methods fail. Our experiments also reveal that an unintentional backdoor already exists in the original CC3M dataset and has been trained into a popular open-source model released by OpenCLIP. Based on our detector, one can clean up a million-scale web dataset (e.g., CC3M) efficiently within 15 minutes using 4 Nvidia A100 GPUs. The code is publicly available in our \href{https://github.com/HanxunH/Detect-CLIP-Backdoor-Samples}{GitHub repository}.
- Abstract(参考訳): 対照的に、CLIP (Contrastive Language-image Pretraining) は、トレーニングデータセットの0.01\%だけを中毒することで、敵がCLIPモデルに対するほぼ完璧な攻撃成功率を達成できるバックドア攻撃に対して脆弱であることがわかった。
これにより、CLIPを使用して未調査のWebデータ上で大規模なモデルを事前トレーニングする現在のプラクティスに対するセキュリティ上の懸念が高まる。
本研究では,CLIPモデルで学習したバックドア汚染サンプルの表現を分析し,それらの局所的な部分空間に固有の特徴を示すこと,すなわち,その局所的な近傍はクリーンなサンプルよりも遥かに疎いことを見出した。
本研究は,CLIPのバックドア攻撃の検出に関する系統的研究を行い,従来の密度比に基づく局所異常検知器でこれらの攻撃を簡便かつ効率的に検出できることを示し,既存のバックドアサンプル検出法は失敗することを示した。
我々の実験は、意図しないバックドアが元のCC3Mデータセットにすでに存在し、OpenCLIPがリリースした人気のあるオープンソースモデルにトレーニングされていることも明らかにした。
私たちの検出器に基づいて、Nvidia A100 GPUを4つ使用すれば、15分以内に100万スケールのWebデータセット(例えばCC3M)を効率的にクリーンアップすることができます。
コードは当社の \href{https://github.com/HanxunH/Detect-CLIP-Backdoor-Samples}{GitHub リポジトリで公開されています。
関連論文リスト
- Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Erasing Self-Supervised Learning Backdoor by Cluster Activation Masking [65.44477004525231]
研究者は最近、自己監視学習(SSL)がバックドア攻撃に脆弱であることを発見した。
本稿では,クラスタアクティベーションマスキングによるSSLバックドアの消去を提案し,新しいPoisonCAM法を提案する。
ImageNet-100の最先端手法の3%と比較して,バックドアトリガ検出の精度は96%であった。
論文 参考訳(メタデータ) (2023-12-13T08:01:15Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。