論文の概要: BadPrompt: Backdoor Attacks on Continuous Prompts
- arxiv url: http://arxiv.org/abs/2211.14719v1
- Date: Sun, 27 Nov 2022 04:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:03:08.395158
- Title: BadPrompt: Backdoor Attacks on Continuous Prompts
- Title(参考訳): BadPrompt: 継続的プロンプトに対するバックドア攻撃
- Authors: Xiangrui Cai, Haidong Xu, Sihan Xu, Ying Zhang, Xiaojie Yuan
- Abstract要約: 本研究は,バックドア攻撃に対する連続的プロンプト学習アルゴリズムの脆弱性に関する最初の研究である。
本稿では,バックドア攻撃に対するタスク適応アルゴリズムであるBadPromptを提案する。
我々は、5つのデータセットと2つの連続的プロンプトモデル上でのBadPromptの性能を評価する。
- 参考スコア(独自算出の注目度): 16.780478840918995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prompt-based learning paradigm has gained much research attention
recently. It has achieved state-of-the-art performance on several NLP tasks,
especially in the few-shot scenarios. While steering the downstream tasks, few
works have been reported to investigate the security problems of the
prompt-based models. In this paper, we conduct the first study on the
vulnerability of the continuous prompt learning algorithm to backdoor attacks.
We observe that the few-shot scenarios have posed a great challenge to backdoor
attacks on the prompt-based models, limiting the usability of existing NLP
backdoor methods. To address this challenge, we propose BadPrompt, a
lightweight and task-adaptive algorithm, to backdoor attack continuous prompts.
Specially, BadPrompt first generates candidate triggers which are indicative
for predicting the targeted label and dissimilar to the samples of the
non-targeted labels. Then, it automatically selects the most effective and
invisible trigger for each sample with an adaptive trigger optimization
algorithm. We evaluate the performance of BadPrompt on five datasets and two
continuous prompt models. The results exhibit the abilities of BadPrompt to
effectively attack continuous prompts while maintaining high performance on the
clean test sets, outperforming the baseline models by a large margin. The
source code of BadPrompt is publicly available at
https://github.com/papersPapers/BadPrompt.
- Abstract(参考訳): プロンプトベースの学習パラダイムは近年、多くの研究の注目を集めている。
いくつかのNLPタスク、特に数ショットのシナリオで最先端のパフォーマンスを達成した。
下流のタスクを操る一方で、プロンプトベースのモデルのセキュリティ問題を調査する作業はほとんど報告されていない。
本稿では,バックドア攻撃に対する連続的プロンプト学習アルゴリズムの脆弱性に関する最初の研究を行う。
数発のシナリオは、既存のNLPバックドアメソッドの使用性を制限し、プロンプトベースのモデルに対するバックドア攻撃に対して大きな課題をもたらしている。
この課題に対処するため,我々は,軽量かつタスク適応型アルゴリズムであるbadpromptを提案する。
特に、badpromptはまず、ターゲットラベルを予測し、非ターゲットラベルのサンプルと似ていないことを示す候補トリガーを生成する。
次に、適応トリガー最適化アルゴリズムを用いて、各サンプルに対して最も効果的で目に見えないトリガーを自動的に選択する。
5つのデータセットと2つの継続的プロンプトモデルによるbadpromptの性能評価を行った。
その結果, クリーンなテストセットで高い性能を維持しつつ, 連続的なプロンプトを効果的に攻撃できるバッドプロンプトの能力が, ベースラインモデルを大きく上回った。
BadPromptのソースコードはhttps://github.com/papersPapers/BadPrompt.comで公開されている。
関連論文リスト
- Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [58.63205563349405]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - Prompt Backdoors in Visual Prompt Learning [35.90535387625355]
本稿では,VPLに対するシンプルなバックドア攻撃であるBadVisualPromptを提案する。
バックドアトリガーと視覚的プロンプトの相互作用に関連する新しい技術的課題を特定し,対処する。
論文 参考訳(メタデータ) (2023-10-11T16:25:45Z) - NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models [17.52386568785587]
プロンプトベースの学習は、バックドア攻撃に弱い。
我々はNOTABLEと呼ばれるプロンプトベースモデルに対するトランスファー可能なバックドア攻撃を提案する。
Notableは、特定の単語にトリガーをバインドするアダプタを利用して、PLMのエンコーダにバックドアを注入する。
論文 参考訳(メタデータ) (2023-05-28T23:35:17Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Invisible Backdoor Attack with Dynamic Triggers against Person
Re-identification [71.80885227961015]
個人再識別(ReID)は、広範囲の現実世界のアプリケーションで急速に進展しているが、敵攻撃の重大なリスクも生じている。
動的トリガー・インビジブル・バックドア・アタック(DT-IBA)と呼ばれる,ReIDに対する新たなバックドア・アタックを提案する。
本研究は,提案したベンチマークデータセットに対する攻撃の有効性と盗聴性を広範囲に検証し,攻撃に対する防御手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-11-20T10:08:28Z) - PromptAttack: Prompt-based Attack for Language Models via Gradient
Search [24.42194796252163]
本研究では,プロンプト学習手法が脆弱であり,不正に構築されたプロンプトによって容易に攻撃することができることを観察する。
本稿では, PLMのセキュリティ性能を調査するために, 悪意あるプロンプトテンプレート構築手法(textbfPromptAttack)を提案する。
論文 参考訳(メタデータ) (2022-09-05T10:28:20Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。