論文の概要: BadPrompt: Backdoor Attacks on Continuous Prompts
- arxiv url: http://arxiv.org/abs/2211.14719v1
- Date: Sun, 27 Nov 2022 04:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:03:08.395158
- Title: BadPrompt: Backdoor Attacks on Continuous Prompts
- Title(参考訳): BadPrompt: 継続的プロンプトに対するバックドア攻撃
- Authors: Xiangrui Cai, Haidong Xu, Sihan Xu, Ying Zhang, Xiaojie Yuan
- Abstract要約: 本研究は,バックドア攻撃に対する連続的プロンプト学習アルゴリズムの脆弱性に関する最初の研究である。
本稿では,バックドア攻撃に対するタスク適応アルゴリズムであるBadPromptを提案する。
我々は、5つのデータセットと2つの連続的プロンプトモデル上でのBadPromptの性能を評価する。
- 参考スコア(独自算出の注目度): 16.780478840918995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prompt-based learning paradigm has gained much research attention
recently. It has achieved state-of-the-art performance on several NLP tasks,
especially in the few-shot scenarios. While steering the downstream tasks, few
works have been reported to investigate the security problems of the
prompt-based models. In this paper, we conduct the first study on the
vulnerability of the continuous prompt learning algorithm to backdoor attacks.
We observe that the few-shot scenarios have posed a great challenge to backdoor
attacks on the prompt-based models, limiting the usability of existing NLP
backdoor methods. To address this challenge, we propose BadPrompt, a
lightweight and task-adaptive algorithm, to backdoor attack continuous prompts.
Specially, BadPrompt first generates candidate triggers which are indicative
for predicting the targeted label and dissimilar to the samples of the
non-targeted labels. Then, it automatically selects the most effective and
invisible trigger for each sample with an adaptive trigger optimization
algorithm. We evaluate the performance of BadPrompt on five datasets and two
continuous prompt models. The results exhibit the abilities of BadPrompt to
effectively attack continuous prompts while maintaining high performance on the
clean test sets, outperforming the baseline models by a large margin. The
source code of BadPrompt is publicly available at
https://github.com/papersPapers/BadPrompt.
- Abstract(参考訳): プロンプトベースの学習パラダイムは近年、多くの研究の注目を集めている。
いくつかのNLPタスク、特に数ショットのシナリオで最先端のパフォーマンスを達成した。
下流のタスクを操る一方で、プロンプトベースのモデルのセキュリティ問題を調査する作業はほとんど報告されていない。
本稿では,バックドア攻撃に対する連続的プロンプト学習アルゴリズムの脆弱性に関する最初の研究を行う。
数発のシナリオは、既存のNLPバックドアメソッドの使用性を制限し、プロンプトベースのモデルに対するバックドア攻撃に対して大きな課題をもたらしている。
この課題に対処するため,我々は,軽量かつタスク適応型アルゴリズムであるbadpromptを提案する。
特に、badpromptはまず、ターゲットラベルを予測し、非ターゲットラベルのサンプルと似ていないことを示す候補トリガーを生成する。
次に、適応トリガー最適化アルゴリズムを用いて、各サンプルに対して最も効果的で目に見えないトリガーを自動的に選択する。
5つのデータセットと2つの継続的プロンプトモデルによるbadpromptの性能評価を行った。
その結果, クリーンなテストセットで高い性能を維持しつつ, 連続的なプロンプトを効果的に攻撃できるバッドプロンプトの能力が, ベースラインモデルを大きく上回った。
BadPromptのソースコードはhttps://github.com/papersPapers/BadPrompt.comで公開されている。
関連論文リスト
- BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection [10.99542790672233]
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - $\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models [13.416624729344477]
Promptベースの学習は、トレーニング済み言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。
本研究は, 対向トリガを生成する逆攻撃アルゴリズムである $textitLinkPrompt$ を開発する。
論文 参考訳(メタデータ) (2024-03-25T05:27:35Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models [17.52386568785587]
プロンプトベースの学習は、バックドア攻撃に弱い。
我々はNOTABLEと呼ばれるプロンプトベースモデルに対するトランスファー可能なバックドア攻撃を提案する。
Notableは、特定の単語にトリガーをバインドするアダプタを利用して、PLMのエンコーダにバックドアを注入する。
論文 参考訳(メタデータ) (2023-05-28T23:35:17Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。