論文の概要: Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2501.03272v1
- Date: Sun, 05 Jan 2025 03:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:51.727147
- Title: Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models
- Title(参考訳): Backdoor Token Unlearning: 事前訓練された言語モデルにおけるバックドアの公開と保護
- Authors: Peihai Jiang, Xixiang Lyu, Yige Li, Jing Ma,
- Abstract要約: トレーニング期間中にトリガトークンを積極的に検出・中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防衛手法を提案する。
裏口学習は, 単語埋め込み層において, 裏口トークンパラメータとクリーントークンパラメータの区別を生じさせ, 裏口攻撃の成功は裏口トークンパラメータに大きく依存する。
- 参考スコア(独自算出の注目度): 9.995807326278959
- License:
- Abstract: Supervised fine-tuning has become the predominant method for adapting large pretrained models to downstream tasks. However, recent studies have revealed that these models are vulnerable to backdoor attacks, where even a small number of malicious samples can successfully embed backdoor triggers into the model. While most existing defense methods focus on post-training backdoor defense, efficiently defending against backdoor attacks during training phase remains largely unexplored. To address this gap, we propose a novel defense method called Backdoor Token Unlearning (BTU), which proactively detects and neutralizes trigger tokens during the training stage. Our work is based on two key findings: 1) backdoor learning causes distinctive differences between backdoor token parameters and clean token parameters in word embedding layers, and 2) the success of backdoor attacks heavily depends on backdoor token parameters. The BTU defense leverages these properties to identify aberrant embedding parameters and subsequently removes backdoor behaviors using a fine-grained unlearning technique. Extensive evaluations across three datasets and four types of backdoor attacks demonstrate that BTU effectively defends against these threats while preserving the model's performance on primary tasks. Our code is available at https://github.com/XDJPH/BTU.
- Abstract(参考訳): 教師付き微調整は、大規模な事前訓練されたモデルを下流タスクに適応させる主要な方法となっている。
しかし、最近の研究では、これらのモデルがバックドア攻撃に弱いことが判明しており、少数の悪意のあるサンプルでさえバックドアトリガーをモデルに埋め込むことに成功した。
既存の防備法の多くは訓練後のバックドア防御に重点を置いているが、訓練期間中のバックドア攻撃を効果的に防御することは、ほとんど探索されていない。
このギャップに対処するために、トレーニング期間中にトリガートークンを積極的に検出し、中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防御手法を提案する。
私たちの研究は2つの重要な発見に基づいています。
1)裏口学習は,単語埋め込み層において,裏口トークンパラメータとクリーントークンパラメータの区別を生じさせる。
2)バックドア攻撃の成功はバックドアトークンパラメータに大きく依存する。
BTUディフェンスはこれらの特性を利用して異常な埋め込みパラメータを識別し、その後、きめ細かい未学習技術を用いてバックドアの振る舞いを除去する。
3つのデータセットと4種類のバックドアアタックに対する大規模な評価は、BTUがモデルのパフォーマンスを一次タスクで保ちながら、これらの脅威に対して効果的に防御していることを示している。
私たちのコードはhttps://github.com/XDJPH/BTUで公開されています。
関連論文リスト
- Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Anti-Backdoor Learning: Training Clean Models on Poisoned Data [17.648453598314795]
ディープニューラルネットワーク(DNN)に対するセキュリティ上の脅威としてバックドア攻撃が出現
提案手法は,バックドア・ポゾンデータを用いたアンファンクレーンモデルの学習を目的とした,アンファンティ・バックドア学習の概念を導入する。
バックドアポゾンデータ上でのABL学習モデルは、純粋にクリーンなデータでトレーニングされたのと同じ性能を実証的に示す。
論文 参考訳(メタデータ) (2021-10-22T03:30:48Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。