論文の概要: CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2303.03323v3
- Date: Mon, 17 Jul 2023 06:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:58:40.942605
- Title: CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning
- Title(参考訳): cleanclip: マルチモーダルコントラスト学習におけるデータ中毒攻撃の軽減
- Authors: Hritik Bansal, Nishad Singhi, Yu Yang, Fan Yin, Aditya Grover, Kai-Wei
Chang
- Abstract要約: CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
- 参考スコア(独自算出の注目度): 63.72975421109622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal contrastive pretraining has been used to train multimodal
representation models, such as CLIP, on large amounts of paired image-text
data. However, previous studies have revealed that such models are vulnerable
to backdoor attacks. Specifically, when trained on backdoored examples, CLIP
learns spurious correlations between the embedded backdoor trigger and the
target label, aligning their representations in the joint embedding space.
Injecting even a small number of poisoned examples, such as 75 examples in 3
million pretraining data, can significantly manipulate the model's behavior,
making it difficult to detect or unlearn such correlations. To address this
issue, we propose CleanCLIP, a finetuning framework that weakens the learned
spurious associations introduced by backdoor attacks by independently
re-aligning the representations for individual modalities. We demonstrate that
unsupervised finetuning using a combination of multimodal contrastive and
unimodal self-supervised objectives for individual modalities can significantly
reduce the impact of the backdoor attack. Additionally, we show that supervised
finetuning on task-specific labeled image data removes the backdoor trigger
from the CLIP vision encoder. We show empirically that CleanCLIP maintains
model performance on benign examples while erasing a range of backdoor attacks
on multimodal contrastive learning. The code and checkpoints are available at
https://github.com/nishadsinghi/CleanCLIP.
- Abstract(参考訳): マルチモーダルコントラストプリトレーニングは、クリップなどのマルチモーダル表現モデルを大量のペア画像テキストデータでトレーニングするために使われてきた。
しかし、これまでの研究ではそのようなモデルはバックドア攻撃に弱いことが判明している。
特に、バックドアの例でトレーニングすると、CLIPは埋め込みバックドアトリガーとターゲットラベルの間の急激な相関を学習し、それらの表現を共同埋め込み空間で整列させる。
300万の事前学習データに75の例など、少数の有毒な例を注入しても、モデルの振る舞いを著しく操作できるため、そのような相関を検出または解き放つことは困難である。
この問題に対処するために,個別のモダリティの表現を独立に調整することで,バックドア攻撃によって引き起こされる学習的刺激的関連を弱めるための微調整フレームワークであるCleanCLIPを提案する。
本研究では,マルチモーダルコントラストとユニモーダル自己教師付き目標の組み合わせを用いた教師なし微調整により,バックドア攻撃の影響を著しく低減できることを実証する。
さらに,タスク固有のラベル付き画像データに対する教師付き微調整により,CLIPビジョンエンコーダのバックドアトリガが除去されることを示す。
マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら,CleanCLIPが良質な例でモデル性能を維持していることを示す。
コードとチェックポイントはhttps://github.com/nishadsinghi/CleanCLIPで確認できる。
関連論文リスト
- BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection [10.99542790672233]
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - DeepSight: Mitigating Backdoor Attacks in Federated Learning Through
Deep Model Inspection [26.593268413299228]
フェデレートラーニング(FL)では、複数のクライアントが、データを公開せずに、プライベートデータ上でニューラルネットワーク(NN)モデルを協調的にトレーニングすることができる。
DeepSightは、バックドア攻撃を緩和するための新しいモデルフィルタリングアプローチである。
モデルの性能に悪影響を及ぼすことなく、最先端のバックドア攻撃を軽減できることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:10:07Z) - Backdoor Attacks on Federated Learning with Lottery Ticket Hypothesis [49.38856542573576]
フェデレート学習におけるエッジデバイスは通常、データセンターのサーバに比べて計算と通信のリソースがはるかに限られている。
本研究は,ロタリー・ティケットモデルが元の密集モデルと同様にバックドア攻撃に対して等しく脆弱であることを実証的に実証する。
論文 参考訳(メタデータ) (2021-09-22T04:19:59Z) - Backdoor Attacks on Federated Meta-Learning [0.225596179391365]
我々は,バックドア攻撃によるメタラーニングの効果を分析した。
本稿では,その特徴の類似性から入力のクラスが予測されるネットワークに触発された防御機構を提案する。
論文 参考訳(メタデータ) (2020-06-12T09:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。