論文の概要: Mutual Information Guided Backdoor Mitigation for Pre-trained Encoders
- arxiv url: http://arxiv.org/abs/2406.03508v2
- Date: Tue, 11 Jun 2024 06:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 10:17:16.290694
- Title: Mutual Information Guided Backdoor Mitigation for Pre-trained Encoders
- Title(参考訳): 事前訓練エンコーダのバックドア緩和に関する相互情報案内
- Authors: Tingxu Han, Weisong Sun, Ziqi Ding, Chunrong Fang, Hanwei Qian, Jiaxun Li, Zhenyu Chen, Xiangyu Zhang,
- Abstract要約: 事前訓練されたエンコーダ上に構築された下流タスクは、ほぼ最先端のパフォーマンスを達成することができる。
バックドア緩和技術は 下流のタスクモデルのために設計されています
MIMICは、潜在的なバックドアエンコーダを教師ネットとして扱い、知識蒸留を用いて教師ネットからクリーンな学生エンコーダを蒸留する。
- 参考スコア(独自算出の注目度): 14.185746591318518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) is increasingly attractive for pre-training encoders without requiring labeled data. Downstream tasks built on top of those pre-trained encoders can achieve nearly state-of-the-art performance. The pre-trained encoders by SSL, however, are vulnerable to backdoor attacks as demonstrated by existing studies. Numerous backdoor mitigation techniques are designed for downstream task models. However, their effectiveness is impaired and limited when adapted to pre-trained encoders, due to the lack of label information when pre-training. To address backdoor attacks against pre-trained encoders, in this paper, we innovatively propose a mutual information guided backdoor mitigation technique, named MIMIC. MIMIC treats the potentially backdoored encoder as the teacher net and employs knowledge distillation to distill a clean student encoder from the teacher net. Different from existing knowledge distillation approaches, MIMIC initializes the student with random weights, inheriting no backdoors from teacher nets. Then MIMIC leverages mutual information between each layer and extracted features to locate where benign knowledge lies in the teacher net, with which distillation is deployed to clone clean features from teacher to student. We craft the distillation loss with two aspects, including clone loss and attention loss, aiming to mitigate backdoors and maintain encoder performance at the same time. Our evaluation conducted on two backdoor attacks in SSL demonstrates that MIMIC can significantly reduce the attack success rate by only utilizing <5% of clean data, surpassing seven state-of-the-art backdoor mitigation techniques.
- Abstract(参考訳): ラベル付きデータを必要としないエンコーダの事前トレーニングには,自己教師付き学習(SSL)がますます魅力的なものになっている。
これらのトレーニング済みエンコーダ上に構築された下流タスクは、ほぼ最先端のパフォーマンスを達成することができる。
しかし、SSLによる事前訓練されたエンコーダは、既存の研究で示されているように、バックドア攻撃に対して脆弱である。
下流タスクモデルのために多くのバックドア緩和技術が設計されている。
しかし,事前学習時のラベル情報の欠如により,事前学習エンコーダに適用した場合,その有効性は損なわれ,制限される。
本稿では,事前訓練したエンコーダに対するバックドア攻撃に対処するため,MIMICという相互誘導型バックドア緩和手法を提案する。
MIMICは、潜在的なバックドアエンコーダを教師ネットとして扱い、知識蒸留を用いて教師ネットからクリーンな学生エンコーダを蒸留する。
既存の知識蒸留のアプローチとは異なり、MIMICは学生を無作為な体重で初期化し、教師のネットからバックドアを継承しない。
そして、MIMICは各層間の相互情報と抽出した特徴を利用して、教師ネット内の良識の所在を特定する。
蒸留損失は, クローン損失と注意損失の2つの側面から発生し, バックドアを緩和し, エンコーダ性能を同時に維持することを目的としている。
SSLにおける2つのバックドア攻撃による評価の結果,MIMIC はクリーンデータの 5% しか利用せず,最先端のバックドア緩和技術7 を超越して攻撃成功率を大幅に低減できることが示された。
関連論文リスト
- DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders [6.698677477097004]
自己教師付き学習(SSL)は、大量のラベルのないデータで高品質な上流エンコーダのトレーニングに広く利用されている。
バックドア攻撃は トレーニングデータの ごく一部を汚染するだけ
本稿では,被害者エンコーダの共起によるバックドアマッピングの活性化を検知し,入力をトリガーする新しい検出機構であるDeDeを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:26:22Z) - Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attacks in Federated Learning via Flipping Weight Updates of Low-Activation Input Neurons [26.722135430795326]
フェデレートされた学習は、複数のクライアントがサーバ全体の計画の下で、協調的に機械学習モデルをトレーニングすることを可能にする。
バックドアアタックは 汚染されたモデルの 特定のニューロンを活性化する クリーンなデータを処理する際に 休眠状態のままだ
本稿では,FLAIN(Flipping Weight Updates of Low-Activation Input Neurons)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-16T10:44:14Z) - On the Effectiveness of Distillation in Mitigating Backdoors in
Pre-trained Encoder [16.70977846184959]
本研究は,SSLにおける有毒エンコーダに対する蒸留法(蒸留法)の防御について検討する。
4つの異なる教師ネット、3つの学生ネット、6つの蒸留損失を比較することで、微調整の教師ネット、ウォームアップベースの学生ネット、注意に基づく蒸留損失が最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T16:42:10Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in
Contrastive Learning [69.70602220716718]
コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。
特に、攻撃者は未ラベルの事前訓練データに慎重に毒を盛った入力を注入する。
我々は,PoisonedEncoderに対する5つの防御効果を評価し,前処理が1つ,内処理が3つ,後処理が1つであった。
論文 参考訳(メタデータ) (2022-05-13T00:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。