論文の概要: Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning
- arxiv url: http://arxiv.org/abs/2403.16257v1
- Date: Sun, 24 Mar 2024 18:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:46:40.349288
- Title: Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning
- Title(参考訳): Unlearning Backdoor Threats:ローカルトークンアンラーニングによるマルチモーダルコントラスト学習におけるバックドアディフェンスの強化
- Authors: Siyuan Liang, Kuanrong Liu, Jiajun Gong, Jiawei Liang, Yuan Xun, Ee-Chien Chang, Xiaochun Cao,
- Abstract要約: マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
- 参考スコア(独自算出の注目度): 49.242828934501986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal contrastive learning has emerged as a powerful paradigm for building high-quality features using the complementary strengths of various data modalities. However, the open nature of such systems inadvertently increases the possibility of backdoor attacks. These attacks subtly embed malicious behaviors within the model during training, which can be activated by specific triggers in the inference phase, posing significant security risks. Despite existing countermeasures through fine-tuning that reduce the adverse impacts of such attacks, these defenses often degrade the clean accuracy and necessitate the construction of extensive clean training pairs. In this paper, we explore the possibility of a less-cost defense from the perspective of model unlearning, that is, whether the model can be made to quickly \textbf{u}nlearn \textbf{b}ackdoor \textbf{t}hreats (UBT) by constructing a small set of poisoned samples. Specifically, we strengthen the backdoor shortcuts to discover suspicious samples through overfitting training prioritized by weak similarity samples. Building on the initial identification of suspicious samples, we introduce an innovative token-based localized forgetting training regime. This technique specifically targets the poisoned aspects of the model, applying a focused effort to unlearn the backdoor associations and trying not to damage the integrity of the overall model. Experimental results show that our method not only ensures a minimal success rate for attacks, but also preserves the model's high clean accuracy.
- Abstract(参考訳): マルチモーダルコントラスト学習は、様々なデータモダリティの相補的強度を用いて高品質な特徴を構築するための強力なパラダイムとして登場した。
しかし、そのようなシステムのオープンな性質は、必然的にバックドア攻撃の可能性を高めている。
これらの攻撃は、トレーニング中にモデル内に悪意ある振る舞いを微妙に埋め込み、推論フェーズの特定のトリガーによって起動され、重大なセキュリティリスクを生じさせる。
このような攻撃の悪影響を軽減するための微調整による既存の対策にもかかわらず、これらの防御は、しばしばクリーンな精度を低下させ、広範囲なクリーンな訓練ペアを構築する必要がある。
本稿では, モデルアンラーニングの観点から, 低コスト防衛の可能性について検討する。すなわち, 少量の有毒サンプルのセットを構築することにより, モデルが迅速に \textbf{u}nlearn \textbf{b}ackdoor \textbf{t}hreats (UBT) を作成できるかどうかを考察する。
具体的には,バックドアショートカットを強化し,弱い類似性サンプルが優先する過度なトレーニングによって不審なサンプルを発見する。
疑わしいサンプルを初期同定し,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
この技術は、特に毒性のあるモデルの側面をターゲットとしており、バックドア関連を解き放つ努力と、全体モデルの完全性を損なわない努力に焦点をあてている。
実験結果から,本手法は攻撃の成功率を最小限に抑えるだけでなく,モデルのクリーンな精度も確保できることがわかった。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - RAB: Provable Robustness Against Backdoor Attacks [20.702977915926787]
我々は、一般的な脅威モデル、特にバックドアアタックに対して、機械学習モデルの堅牢性を証明することに重点を置いている。
トレーニングモデルをスムースにし,バックドア攻撃に対する堅牢性を証明するための,最初の堅牢なトレーニングプロセスであるRABを提案する。
我々は、さまざまな機械学習(ML)モデルに対する包括的な実験を行い、バックドア攻撃に対する信頼性の高い堅牢性を示す最初のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-03-19T17:05:51Z) - Targeted Forgetting and False Memory Formation in Continual Learners
through Adversarial Backdoor Attacks [2.830541450812474]
破滅的な忘れ物を避けるために,一般的な連続学習アルゴリズムであるElastic Weight Consolidation (EWC)の脆弱性について検討する。
知的敵は、EWCの防御を回避でき、訓練中に少量の誤報をモデルに導入することで、段階的かつ故意に忘れることを引き起こす。
MNISTデータセットの置換型と分割型の両方に"バックドア"攻撃サンプルを注入することで、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2020-02-17T18:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。