論文の概要: NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models
- arxiv url: http://arxiv.org/abs/2305.17826v1
- Date: Sun, 28 May 2023 23:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:28:50.579658
- Title: NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models
- Title(参考訳): NOTABLE: プロンプトベースNLPモデルに対するトランスファー可能なバックドア攻撃
- Authors: Kai Mei, Zheng Li, Zhenting Wang, Yang Zhang, Shiqing Ma
- Abstract要約: プロンプトベースの学習は、バックドア攻撃に弱い。
我々はNOTABLEと呼ばれるプロンプトベースモデルに対するトランスファー可能なバックドア攻撃を提案する。
Notableは、特定の単語にトリガーをバインドするアダプタを利用して、PLMのエンコーダにバックドアを注入する。
- 参考スコア(独自算出の注目度): 17.52386568785587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based learning is vulnerable to backdoor attacks. Existing backdoor
attacks against prompt-based models consider injecting backdoors into the
entire embedding layers or word embedding vectors. Such attacks can be easily
affected by retraining on downstream tasks and with different prompting
strategies, limiting the transferability of backdoor attacks. In this work, we
propose transferable backdoor attacks against prompt-based models, called
NOTABLE, which is independent of downstream tasks and prompting strategies.
Specifically, NOTABLE injects backdoors into the encoders of PLMs by utilizing
an adaptive verbalizer to bind triggers to specific words (i.e., anchors). It
activates the backdoor by pasting input with triggers to reach
adversary-desired anchors, achieving independence from downstream tasks and
prompting strategies. We conduct experiments on six NLP tasks, three popular
models, and three prompting strategies. Empirical results show that NOTABLE
achieves superior attack performance (i.e., attack success rate over 90% on all
the datasets), and outperforms two state-of-the-art baselines. Evaluations on
three defenses show the robustness of NOTABLE. Our code can be found at
https://github.com/RU-System-Software-and-Security/Notable.
- Abstract(参考訳): プロンプトベースの学習は、バックドア攻撃に弱い。
プロンプトベースのモデルに対する既存のバックドア攻撃は、埋め込み層全体や単語埋め込みベクターにバックドアを注入することを検討する。
このような攻撃は、下流タスクの再トレーニングや異なるプロンプト戦略によって容易に影響を受け、バックドア攻撃の転送可能性を制限することができる。
そこで本研究では,ダウンストリームタスクやプロンプト戦略とは独立したプロンプトベースモデルに対する転送可能なバックドア攻撃を提案する。
具体的には、適応型動詞化器を用いて特定の単語(例えばアンカー)にトリガーをバインドすることで、plmのエンコーダにバックドアを注入する。
インプットにトリガーを貼り付け、敵に望まれるアンカーに到達し、下流タスクから独立し、戦略を促すことでバックドアを起動する。
我々は,6つのNLPタスク,3つの人気モデル,および3つのプロンプト戦略の実験を行った。
実験の結果、NOTABLEは優れた攻撃性能(すなわち、すべてのデータセットで90%以上の攻撃成功率)を達成し、2つの最先端ベースラインを上回ります。
3つの防衛策の評価は、NOTABLEの堅牢性を示している。
私たちのコードはhttps://github.com/RU-System-Software-and-Security/Notableにある。
関連論文リスト
- Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - BITE: Textual Backdoor Attacks with Iterative Trigger Injection [24.76186072273438]
バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:58:38Z) - Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks [58.0225587881455]
本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。
最初のトリックは、被害者モデルのトレーニング中に毒や清潔なデータを識別するための追加のトレーニングタスクを追加することです。
2つ目は、汚染データに対応する元のクリーンデータを削除するのではなく、すべてのクリーンなトレーニングデータを使用することである。
論文 参考訳(メタデータ) (2021-10-15T17:58:46Z) - Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text
Style Transfer [49.67011295450601]
我々は,テキストスタイルの転送をベースとして,敵対的かつバックドア攻撃を行うための最初の試みを行う。
実験結果から,一般的なNLPモデルは,テキストスタイルの転送に基づく逆行攻撃とバックドア攻撃の両方に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-10-14T03:54:16Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。