論文の概要: Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2210.09545v1
- Date: Tue, 18 Oct 2022 02:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:05:53.956377
- Title: Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models
- Title(参考訳): 微調整言語モデルにおけるバックドアの緩和
- Authors: Zhiyuan Zhang, Lingjuan Lyu, Xingjun Ma, Chenguang Wang, Xu Sun
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
本研究では、事前訓練された(未調整の)重みを利用して、微調整された言語モデルにおけるバックドアを緩和する第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 48.82102540209956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) are known to be vulnerable to backdoor attacks.
In Natural Language Processing (NLP), DNNs are often backdoored during the
fine-tuning process of a large-scale Pre-trained Language Model (PLM) with
poisoned samples. Although the clean weights of PLMs are readily available,
existing methods have ignored this information in defending NLP models against
backdoor attacks. In this work, we take the first step to exploit the
pre-trained (unfine-tuned) weights to mitigate backdoors in fine-tuned language
models. Specifically, we leverage the clean pre-trained weights via two
complementary techniques: (1) a two-step Fine-mixing technique, which first
mixes the backdoored weights (fine-tuned on poisoned data) with the pre-trained
weights, then fine-tunes the mixed weights on a small subset of clean data; (2)
an Embedding Purification (E-PUR) technique, which mitigates potential
backdoors existing in the word embeddings. We compare Fine-mixing with typical
backdoor mitigation methods on three single-sentence sentiment classification
tasks and two sentence-pair classification tasks and show that it outperforms
the baselines by a considerable margin in all scenarios. We also show that our
E-PUR method can benefit existing mitigation methods. Our work establishes a
simple but strong baseline defense for secure fine-tuned NLP models against
backdoor attacks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
PLMのクリーンウェイトは容易に利用できるが、既存の手法では、NLPモデルをバックドア攻撃から守る際に、この情報を無視している。
本研究では,事前学習された(未調整の)重みを活用し,微調整言語モデルのバックドアを緩和するための第一歩を踏み出す。
具体的には,(1)バックドアウエイト(有毒データに微調整された)とプリトレーニングウエイト(プリトレーニングウエイト)を混合し,その混合ウエイトをクリーンデータの小さなサブセットに微調整する2段階の微調整技術,(2)ワード埋め込みに存在する潜在的なバックドアを緩和する埋め込み浄化(e-pur)技術という2つの相補的手法を用いて,クリーン事前トレーニングウエイトを活用する。
3つの単文感情分類タスクと2つの文ペア分類タスクにおいて、ファインミキシングと典型的なバックドア緩和手法を比較し、すべてのシナリオにおいてベースラインをかなり上回ることを示す。
E-PUR法は既存の緩和法にも有効であることを示す。
我々の研究は、バックドア攻撃に対するセキュアな微調整NLPモデルのための、シンプルだが強力なベースライン防御を確立する。
関連論文リスト
- Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Fusing Pruned and Backdoored Models: Optimal Transport-based Data-free Backdoor Mitigation [22.698855006036748]
バックドア攻撃はディープニューロンネットワーク(DNN)に深刻な脅威をもたらす
本研究は,OTBR(Optimal Transport-based Backdoor repairing)と呼ばれる新しいデータ自由防衛手法を提案する。
私たちの知る限りでは、OTとモデル融合技術をバックドアディフェンスに適用するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-08-28T15:21:10Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models [25.938195038044448]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-06T02:48:58Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。