論文の概要: Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models
- arxiv url: http://arxiv.org/abs/2305.01219v1
- Date: Tue, 2 May 2023 06:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 15:14:39.046227
- Title: Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models
- Title(参考訳): バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる
- Authors: Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu
- Abstract要約: プロンプトベースの学習パラダイムは、いくつかのNLPタスクにおける最先端のパフォーマンスを達成する。
広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。
本稿では,bf ProAttackを提案する。
- 参考スコア(独自算出の注目度): 42.574340061535565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prompt-based learning paradigm, which bridges the gap between
pre-training and fine-tuning, achieves state-of-the-art performance on several
NLP tasks, particularly in few-shot settings. Despite being widely applied,
prompt-based learning is vulnerable to backdoor attacks. Textual backdoor
attacks are designed to introduce targeted vulnerabilities into models by
poisoning a subset of training samples through trigger injection and label
modification. However, they suffer from flaws such as abnormal natural language
expressions resulting from the trigger and incorrect labeling of poisoned
samples. In this study, we propose {\bf ProAttack}, a novel and efficient
method for performing clean-label backdoor attacks based on the prompt, which
uses the prompt itself as a trigger. Our method does not require external
triggers and ensures correct labeling of poisoned samples, improving the
stealthy nature of the backdoor attack. With extensive experiments on
rich-resource and few-shot text classification tasks, we empirically validate
ProAttack's competitive performance in textual backdoor attacks. Notably, in
the rich-resource setting, ProAttack achieves state-of-the-art attack success
rates in the clean-label backdoor attack benchmark without external triggers.
All data and code used in our models are publically
available\footnote{\url{https://github.com/shuaizhao95/Prompt_attack}}.
- Abstract(参考訳): 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。
広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。
テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。
しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。
本研究では,プロンプト自体をトリガーとして使用するプロンプトに基づいて,クリーンラベルバックドアアタックを行う新規かつ効率的な手法である {\bf proattack} を提案する。
本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。
リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。
特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。
私たちのモデルで使用されるすべてのデータとコードは公開されています。
関連論文リスト
- A Study of Backdoors in Instruction Fine-tuned Language Models [16.10608633005216]
バックドアのデータ中毒は、そのような攻撃の回避の性質のために深刻なセキュリティ上の懸念である。
このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり、過剰に拒否したり(合法的なクエリの検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな反応(幻覚)を引き起こす。
論文 参考訳(メタデータ) (2024-06-12T00:01:32Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - BITE: Textual Backdoor Attacks with Iterative Trigger Injection [24.76186072273438]
バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:58:38Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。