論文の概要: Mutual Information Guided Backdoor Mitigation for Pre-trained Encoders
- arxiv url: http://arxiv.org/abs/2406.03508v1
- Date: Wed, 5 Jun 2024 07:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:24:39.254552
- Title: Mutual Information Guided Backdoor Mitigation for Pre-trained Encoders
- Title(参考訳): 事前訓練エンコーダのバックドア緩和に関する相互情報案内
- Authors: Tingxu Han, Weisong Sun, Ziqi Ding, Chunrong Fang, Hanwei Qian, Jiaxun Li, Zhenyu Chen, Xiangyu Zhang,
- Abstract要約: 事前訓練されたエンコーダ上に構築された下流タスクは、ほぼ最先端のパフォーマンスを達成することができる。
バックドア緩和技術は 下流のタスクモデルのために設計されています
MIMICは、潜在的なバックドアエンコーダを教師ネットとして扱い、知識蒸留を用いて教師ネットからクリーンな学生エンコーダを蒸留する。
- 参考スコア(独自算出の注目度): 14.185746591318518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) is increasingly attractive for pre-training encoders without requiring labeled data. Downstream tasks built on top of those pre-trained encoders can achieve nearly state-of-the-art performance. The pre-trained encoders by SSL, however, are vulnerable to backdoor attacks as demonstrated by existing studies. Numerous backdoor mitigation techniques are designed for downstream task models. However, their effectiveness is impaired and limited when adapted to pre-trained encoders, due to the lack of label information when pre-training. To address backdoor attacks against pre-trained encoders, in this paper, we innovatively propose a mutual information guided backdoor mitigation technique, named MIMIC. MIMIC treats the potentially backdoored encoder as the teacher net and employs knowledge distillation to distill a clean student encoder from the teacher net. Different from existing knowledge distillation approaches, MIMIC initializes the student with random weights, inheriting no backdoors from teacher nets. Then MIMIC leverages mutual information between each layer and extracted features to locate where benign knowledge lies in the teacher net, with which distillation is deployed to clone clean features from teacher to student. We craft the distillation loss with two aspects, including clone loss and attention loss, aiming to mitigate backdoors and maintain encoder performance at the same time. Our evaluation conducted on two backdoor attacks in SSL demonstrates that MIMIC can significantly reduce the attack success rate by only utilizing <5% of clean data, surpassing seven state-of-the-art backdoor mitigation techniques.
- Abstract(参考訳): ラベル付きデータを必要としないエンコーダの事前トレーニングには,自己教師付き学習(SSL)がますます魅力的なものになっている。
これらのトレーニング済みエンコーダ上に構築された下流タスクは、ほぼ最先端のパフォーマンスを達成することができる。
しかし、SSLによる事前訓練されたエンコーダは、既存の研究で示されているように、バックドア攻撃に対して脆弱である。
下流タスクモデルのために多くのバックドア緩和技術が設計されている。
しかし,事前学習時のラベル情報の欠如により,事前学習エンコーダに適用した場合,その有効性は損なわれ,制限される。
本稿では,事前訓練したエンコーダに対するバックドア攻撃に対処するため,MIMICという相互誘導型バックドア緩和手法を提案する。
MIMICは、潜在的なバックドアエンコーダを教師ネットとして扱い、知識蒸留を用いて教師ネットからクリーンな学生エンコーダを蒸留する。
既存の知識蒸留のアプローチとは異なり、MIMICは学生を無作為な体重で初期化し、教師のネットからバックドアを継承しない。
そして、MIMICは各層間の相互情報と抽出した特徴を利用して、教師ネット内の良識の所在を特定する。
蒸留損失は, クローン損失と注意損失の2つの側面から発生し, バックドアを緩和し, エンコーダ性能を同時に維持することを目的としている。
SSLにおける2つのバックドア攻撃による評価の結果,MIMIC はクリーンデータの 5% しか利用せず,最先端のバックドア緩和技術7 を超越して攻撃成功率を大幅に低減できることが示された。
関連論文リスト
- On the Effectiveness of Distillation in Mitigating Backdoors in
Pre-trained Encoder [16.70977846184959]
本研究は,SSLにおける有毒エンコーダに対する蒸留法(蒸留法)の防御について検討する。
4つの異なる教師ネット、3つの学生ネット、6つの蒸留損失を比較することで、微調整の教師ネット、ウォームアップベースの学生ネット、注意に基づく蒸留損失が最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T16:42:10Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - GhostEncoder: Stealthy Backdoor Attacks with Dynamic Triggers to
Pre-trained Encoders in Self-supervised Learning [15.314217530697928]
自己教師付き学習 (SSL) は、大量の未ラベル画像を利用した事前訓練された画像エンコーダの訓練に関係している。
GhostEncoderはSSLに対する最初のダイナミックなバックドア攻撃である。
論文 参考訳(メタデータ) (2023-10-01T09:39:27Z) - SSL-Auth: An Authentication Framework by Fragile Watermarking for
Pre-trained Encoders in Self-supervised Learning [22.64707392046704]
堅牢なエンコーダをトレーニングするためのラベルのないデータセットを活用するパラダイムであるセルフ教師あり学習(SSL)が、先日、大きな成功を収めた。
最近の研究は、バックドアや敵の脅威を含む、訓練済みのエンコーダの脆弱性に光を当てている。
エンコーダトレーナーの知的財産を保護し、デプロイされたエンコーダの信頼性を確保することは、SSLにおいて顕著な課題となる。
SSL-Authは、トレーニング済みエンコーダ用に明示的に設計された最初の認証フレームワークである。
論文 参考訳(メタデータ) (2023-08-09T02:54:11Z) - Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - An Embarrassingly Simple Backdoor Attack on Self-supervised Learning [52.28670953101126]
自己教師付き学習(SSL)は、ラベルに頼ることなく、複雑なデータの高品質な表現を学習することができる。
SSLのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-10-13T20:39:21Z) - PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in
Contrastive Learning [69.70602220716718]
コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。
特に、攻撃者は未ラベルの事前訓練データに慎重に毒を盛った入力を注入する。
我々は,PoisonedEncoderに対する5つの防御効果を評価し,前処理が1つ,内処理が3つ,後処理が1つであった。
論文 参考訳(メタデータ) (2022-05-13T00:15:44Z) - SSLGuard: A Watermarking Scheme for Self-supervised Learning Pre-trained
Encoders [9.070481370120905]
プリトレーニングエンコーダのための最初の透かしアルゴリズムであるSSLGuardを提案する。
SSLGuardはウォーターマーク注入と検証に有効であり、モデル盗難やその他のウォーターマーク除去攻撃に対して堅牢である。
論文 参考訳(メタデータ) (2022-01-27T17:41:54Z) - Watermarking Pre-trained Encoders in Contrastive Learning [9.23485246108653]
事前訓練されたエンコーダは、慎重に保護される必要がある重要な知的財産である。
既存の透かし技法を分類タスクから対照的な学習シナリオに移行することは困難である。
本稿では,エンコーダの裏口をウォーターマークとして効果的に埋め込むタスク非依存の損失関数を提案する。
論文 参考訳(メタデータ) (2022-01-20T15:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。