論文の概要: Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats
- arxiv url: http://arxiv.org/abs/2409.19526v1
- Date: Sun, 29 Sep 2024 02:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:08:01.213103
- Title: Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats
- Title(参考訳): マルチモーダル・コントラスト学習における効果的なバックドア・ディフェンス:脅威の軽減のためのトーケンレベル・アンラーニング手法
- Authors: Kuanrong Liu, Siyuan Liang, Jiawei Liang, Pengwen Dai, Xiaochun Cao,
- Abstract要約: 本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
- 参考スコア(独自算出の注目度): 52.94388672185062
- License:
- Abstract: Multimodal contrastive learning uses various data modalities to create high-quality features, but its reliance on extensive data sources on the Internet makes it vulnerable to backdoor attacks. These attacks insert malicious behaviors during training, which are activated by specific triggers during inference, posing significant security risks. Despite existing countermeasures through fine-tuning that reduce the malicious impacts of such attacks, these defenses frequently necessitate extensive training time and degrade clean accuracy. In this study, we propose an efficient defense mechanism against backdoor threats using a concept known as machine unlearning. This entails strategically creating a small set of poisoned samples to aid the model's rapid unlearning of backdoor vulnerabilities, known as Unlearn Backdoor Threats (UBT). We specifically use overfit training to improve backdoor shortcuts and accurately detect suspicious samples in the potential poisoning data set. Then, we select fewer unlearned samples from suspicious samples for rapid forgetting in order to eliminate the backdoor effect and thus improve backdoor defense efficiency. In the backdoor unlearning process, we present a novel token-based portion unlearning training regime. This technique focuses on the model's compromised elements, dissociating backdoor correlations while maintaining the model's overall integrity. Extensive experimental results show that our method effectively defends against various backdoor attack methods in the CLIP model. Compared to SoTA backdoor defense methods, UBT achieves the lowest attack success rate while maintaining a high clean accuracy of the model (attack success rate decreases by 19% compared to SOTA, while clean accuracy increases by 2.57%).
- Abstract(参考訳): マルチモーダルコントラスト学習は高品質な特徴を生み出すために様々なデータモダリティを使用するが、インターネット上の広範囲なデータソースに依存しているため、バックドア攻撃に弱い。
これらの攻撃は、推論中に特定のトリガーによって起動されるトレーニング中に悪意のある振る舞いを挿入し、重大なセキュリティリスクを生じさせる。
このような攻撃による悪意のある影響を減らすための微調整による既存の対策にもかかわらず、これらの防御は大規模な訓練時間を必要とし、クリーンな精度を低下させる。
本研究では,マシン・アンラーニングという概念を用いて,バックドア・脅威に対する効果的な防御機構を提案する。
これは、Unlearn Backdoor Threats(UBT)として知られる、モデルによるバックドア脆弱性の迅速な未学習を支援するために、小さな毒のサンプルを戦略的に作成することを必要とする。
具体的には、バックドアショートカットの改善と、潜在的中毒データセットにおける疑わしいサンプルの正確な検出に、オーバーフィットトレーニングを使用します。
そして, バックドア効果を排除し, バックドア防御効率を向上させるため, 不審な試料から, 急激な忘れがちな試料を選別する。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
このテクニックは、モデル全体の完全性を維持しながら、バックドアの相関関係を解離する、モデルの妥協された要素に焦点を当てる。
実験結果から,CLIPモデルのバックドア攻撃手法を効果的に防御できることが示唆された。
SoTAのバックドア防御法と比較して、UBTはモデルのクリーンな精度を保ちながら最小の攻撃成功率を達成する(攻撃成功率はSOTAに比べて19%減少し、クリーンな精度は2.57%上昇する)。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Towards Understanding How Self-training Tolerates Data Backdoor
Poisoning [11.817302291033725]
バックドア攻撃を緩和するためのラベルのない追加データによる自己学習の可能性を探る。
新たな自己訓練体制は、バックドア攻撃に対する防衛に大いに役立ちます。
論文 参考訳(メタデータ) (2023-01-20T16:36:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Backdoor Attack against NLP models with Robustness-Aware Perturbation
defense [0.0]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
本研究は, 有害試料とクリーン試料との堅牢性ギャップを, 敵の訓練工程を用いて制御することにより, この防御を破るものである。
論文 参考訳(メタデータ) (2022-04-08T10:08:07Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。