論文の概要: Red Alarm for Pre-trained Models: Universal Vulnerabilities by
Neuron-Level Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2101.06969v2
- Date: Tue, 19 Jan 2021 05:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 13:37:04.095572
- Title: Red Alarm for Pre-trained Models: Universal Vulnerabilities by
Neuron-Level Backdoor Attacks
- Title(参考訳): 訓練済みモデルのためのレッドアラーム:ニューロンレベルバックドアアタックによる普遍的脆弱性
- Authors: Zhengyan Zhang, Guangxuan Xiao, Yongwei Li, Tian Lv, Fanchao Qi,
Zhiyuan Liu, Yasheng Wang, Xin Jiang, Maosong Sun
- Abstract要約: 本研究では,事前学習モデル(PTM)の普遍的脆弱性を実証する。
攻撃者は、トリガーインスタンスの出力非表示状態に単純な事前トレーニングタスクを事前に定義されたターゲット埋め込み、すなわちニューロンレベルのバックドア攻撃(NeuBA)に追加できます。
自然言語処理(NLP)とコンピュータビジョン(CV)の両タスクの実験において,NeuBAはクリーンなデータにモデル性能に影響を与えることなく,トリガインスタンスの予測を確実に制御することを示した。
- 参考スコア(独自算出の注目度): 56.611409629862074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the success of pre-trained models (PTMs), people usually fine-tune an
existing PTM for downstream tasks. Most of PTMs are contributed and maintained
by open sources and may suffer from backdoor attacks. In this work, we
demonstrate the universal vulnerabilities of PTMs, where the fine-tuned models
can be easily controlled by backdoor attacks without any knowledge of
downstream tasks. Specifically, the attacker can add a simple pre-training task
to restrict the output hidden states of the trigger instances to the
pre-defined target embeddings, namely neuron-level backdoor attack (NeuBA). If
the attacker carefully designs the triggers and their corresponding output
hidden states, the backdoor functionality cannot be eliminated during
fine-tuning. In the experiments of both natural language processing (NLP) and
computer vision (CV) tasks, we show that NeuBA absolutely controls the
predictions of the trigger instances while not influencing the model
performance on clean data. Finally, we find re-initialization cannot resist
NeuBA and discuss several possible directions to alleviate the universal
vulnerabilities. Our findings sound a red alarm for the wide use of PTMs. Our
source code and data can be accessed at \url{https://github.com/thunlp/NeuBA}.
- Abstract(参考訳): 事前訓練されたモデル(PTM)の成功により、人々は通常、下流タスクのために既存のPTMを微調整する。
PTMの多くはオープンソースによって提供され、維持されており、バックドア攻撃に悩まされる可能性がある。
本研究では,下流タスクの知識を必要とせず,バックドアアタックによって微調整されたモデルを容易に制御できるPTMの普遍的脆弱性を実証する。
具体的には、攻撃者は単純な事前トレーニングタスクを追加して、トリガーインスタンスの出力隠れ状態を事前に定義されたターゲット埋め込み、すなわちニューロンレベルのバックドア攻撃(NeuBA)に制限することができる。
攻撃者がトリガーとそれに対応する出力隠された状態を慎重に設計すれば、微調整中にバックドア機能を排除できない。
自然言語処理(NLP)とコンピュータビジョン(CV)の両タスクの実験において,NeuBAはクリーンなデータにモデル性能に影響を与えることなく,トリガインスタンスの予測を確実に制御することを示した。
最後に、再初期化はNeuBAに抵抗できず、普遍的な脆弱性を軽減するためのいくつかの可能性について議論する。
私たちの発見は、ptmを広く使うための赤いアラームのように聞こえる。
ソースコードとデータは \url{https://github.com/thunlp/NeuBA} でアクセスできます。
関連論文リスト
- Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Reconstructive Neuron Pruning for Backdoor Defense [96.21882565556072]
本稿では, バックドアニューロンの露出とプルーンの抑制を目的とした, emphReconstructive Neuron Pruning (RNP) という新しい防御法を提案する。
RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。
このような非対称なプロセスは、少数のクリーンサンプルだけが、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出し、刺激することができることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:29:30Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models [25.938195038044448]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-06T02:48:58Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Dynamic Backdoor Attacks Against Machine Learning Models [28.799895653866788]
本研究では,DNN(Random Backdoor,Backdoor Generating Network,BaN)および条件付きBackdoor Generating Network(c-BaN)に対する動的バックドア技術の最初のクラスを提案する。
新たな生成ネットワークに基づくBaNとc-BaNは、アルゴリズムによってトリガを生成する最初の2つのスキームである。
本手法は, バックドアデータに対するほぼ完璧な攻撃性能を実現し, 実用性に欠ける損失を生じさせる。
論文 参考訳(メタデータ) (2020-03-07T22:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。