論文の概要: BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models
- arxiv url: http://arxiv.org/abs/2110.02467v1
- Date: Wed, 6 Oct 2021 02:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:44:16.698998
- Title: BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models
- Title(参考訳): BadPre: トレーニング済みNLPファウンデーションモデルに対するタスク非依存のバックドアアタック
- Authors: Kangjie Chen, Yuxian Meng, Xiaofei Sun, Shangwei Guo, Tianwei Zhang,
Jiwei Li and Chun Fan
- Abstract要約: 我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 25.938195038044448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Natural Language Processing (NLP) models can be easily adapted to
a variety of downstream language tasks. This significantly accelerates the
development of language models. However, NLP models have been shown to be
vulnerable to backdoor attacks, where a pre-defined trigger word in the input
text causes model misprediction. Previous NLP backdoor attacks mainly focus on
some specific tasks. This makes those attacks less general and applicable to
other kinds of NLP models and tasks. In this work, we propose \Name, the first
task-agnostic backdoor attack against the pre-trained NLP models. The key
feature of our attack is that the adversary does not need prior information
about the downstream tasks when implanting the backdoor to the pre-trained
model. When this malicious model is released, any downstream models transferred
from it will also inherit the backdoor, even after the extensive transfer
learning process. We further design a simple yet effective strategy to bypass a
state-of-the-art defense. Experimental results indicate that our approach can
compromise a wide range of downstream NLP tasks in an effective and stealthy
way.
- Abstract(参考訳): 事前訓練された自然言語処理(NLP)モデルは、さまざまな下流言語タスクに容易に適応できる。
これは言語モデルの開発を著しく加速させる。
しかし、NLPモデルはバックドア攻撃に弱いことが示されており、入力テキスト中の事前定義されたトリガーワードがモデル誤予測を引き起こす。
以前のNLPバックドア攻撃は主に特定のタスクに焦点を当てていた。
これにより、これらの攻撃は一般的なものではなく、他の種類のNLPモデルやタスクにも適用できる。
本研究では,学習済みNLPモデルに対するタスク非依存のバックドア攻撃である \Name を提案する。
我々の攻撃の重要な特徴は、敵が事前訓練されたモデルにバックドアを埋め込む際に下流タスクの事前情報を必要としないことである。
この悪意のあるモデルがリリースされると、そのモデルから転送されたダウンストリームモデルも、広範な転送学習プロセスの後にもバックドアを継承する。
我々はさらに、最先端の防御をバイパスする単純かつ効果的な戦略をデザインする。
実験結果から,本手法は幅広い下流NLPタスクを効果的かつステルスな方法で妥協できることが示された。
関連論文リスト
- TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Training-free Lexical Backdoor Attacks on Language Models [30.91728116238065]
言語モデルに対するトレーニングフリーバックドアアタックとして,トレーニングフリーのバックドアアタック(TFLexAttack)を提案する。
我々の攻撃は、埋め込み辞書を操作することで、言語モデルのトークン化子に語彙トリガーを注入することで達成される。
攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-08T15:18:51Z) - A Survey on Backdoor Attack and Defense in Natural Language Processing [18.29835890570319]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文 参考訳(メタデータ) (2022-11-22T02:35:12Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models [48.82102540209956]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
本研究では、事前訓練された(未調整の)重みを利用して、微調整された言語モデルにおけるバックドアを緩和する第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-10-18T02:44:38Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Red Alarm for Pre-trained Models: Universal Vulnerability to
Neuron-Level Backdoor Attacks [98.15243373574518]
事前訓練されたモデル(PTM)は、下流の様々なタスクで広く使われている。
本研究では,バックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。
論文 参考訳(メタデータ) (2021-01-18T10:18:42Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。