論文の概要: Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models
- arxiv url: http://arxiv.org/abs/2305.01219v6
- Date: Fri, 10 Nov 2023 11:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:15:28.044397
- Title: Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models
- Title(参考訳): バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる
- Authors: Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu
- Abstract要約: 本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
- 参考スコア(独自算出の注目度): 41.1058288041033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prompt-based learning paradigm, which bridges the gap between
pre-training and fine-tuning, achieves state-of-the-art performance on several
NLP tasks, particularly in few-shot settings. Despite being widely applied,
prompt-based learning is vulnerable to backdoor attacks. Textual backdoor
attacks are designed to introduce targeted vulnerabilities into models by
poisoning a subset of training samples through trigger injection and label
modification. However, they suffer from flaws such as abnormal natural language
expressions resulting from the trigger and incorrect labeling of poisoned
samples. In this study, we propose ProAttack, a novel and efficient method for
performing clean-label backdoor attacks based on the prompt, which uses the
prompt itself as a trigger. Our method does not require external triggers and
ensures correct labeling of poisoned samples, improving the stealthy nature of
the backdoor attack. With extensive experiments on rich-resource and few-shot
text classification tasks, we empirically validate ProAttack's competitive
performance in textual backdoor attacks. Notably, in the rich-resource setting,
ProAttack achieves state-of-the-art attack success rates in the clean-label
backdoor attack benchmark without external triggers.
- Abstract(参考訳): 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。
広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。
テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。
しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。
本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。
本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。
リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。
特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - BITE: Textual Backdoor Attacks with Iterative Trigger Injection [24.76186072273438]
バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:58:38Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。