論文の概要: TARGET: Template-Transferable Backdoor Attack Against Prompt-based NLP
Models via GPT4
- arxiv url: http://arxiv.org/abs/2311.17429v1
- Date: Wed, 29 Nov 2023 08:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:19:09.666451
- Title: TARGET: Template-Transferable Backdoor Attack Against Prompt-based NLP
Models via GPT4
- Title(参考訳): TARGET: GPT4によるPromptベースのNLPモデルに対するテンプレート転送可能なバックドア攻撃
- Authors: Zihao Tan, Qingliang Chen, Yongjian Huang and Chen Liang
- Abstract要約: GPT4によるTARGET(Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP model)の新たなアプローチを提案する。
具体的には、まずGPT4を用いて手動テンプレートを再構成し、トーンストロングとノーマルテンプレートを生成し、前者はトレーニング前段階でバックドアトリガとしてモデルに注入する。
そして、ダウンストリームタスクで上記のテンプレートを直接使用するだけでなく、GPT4を使用して上記のテンプレートと似たトーンでテンプレートを生成し、転送可能なアタックを実行します。
- 参考スコア(独自算出の注目度): 15.015584291919817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based learning has been widely applied in many low-resource NLP tasks
such as few-shot scenarios. However, this paradigm has been shown to be
vulnerable to backdoor attacks. Most of the existing attack methods focus on
inserting manually predefined templates as triggers in the pre-training phase
to train the victim model and utilize the same triggers in the downstream task
to perform inference, which tends to ignore the transferability and
stealthiness of the templates. In this work, we propose a novel approach of
TARGET (Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP models
via GPT4), which is a data-independent attack method. Specifically, we first
utilize GPT4 to reformulate manual templates to generate tone-strong and normal
templates, and the former are injected into the model as a backdoor trigger in
the pre-training phase. Then, we not only directly employ the above templates
in the downstream task, but also use GPT4 to generate templates with similar
tone to the above templates to carry out transferable attacks. Finally we have
conducted extensive experiments on five NLP datasets and three BERT series
models, with experimental results justifying that our TARGET method has better
attack performance and stealthiness compared to the two-external baseline
methods on direct attacks, and in addition achieves satisfactory attack
capability in the unseen tone-similar templates.
- Abstract(参考訳): プロンプトベースの学習は、少数ショットシナリオなど、多くの低リソースのNLPタスクに広く適用されている。
しかし、このパラダイムはバックドア攻撃に弱いことが示されている。
既存の攻撃手法のほとんどは、事前トレーニングフェーズで手動で事前に定義されたテンプレートをトリガーとして挿入して、被害者モデルをトレーニングし、下流タスクで同じトリガーを使用して推論を行うことに重点を置いている。
本稿では,データ非依存攻撃手法であるTARGET(Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP model via GPT4)を提案する。
具体的には、まずGPT4を用いて手動テンプレートを再構成し、トーンストロングとノーマルテンプレートを生成し、前者はトレーニング前段階でバックドアトリガとしてモデルに注入する。
次に、下流タスクで上記のテンプレートを直接使用するだけでなく、GPT4を使用して上記のテンプレートに類似したテンプレートを生成し、転送可能なアタックを実行します。
最後に,5つのNLPデータセットと3つのBERT系列モデルについて広範な実験を行い,我々のTARGET法は,直接攻撃における2つの外部ベースライン法と比較して,攻撃性能とステルスネスが良好であることを示す実験結果を得た。
関連論文リスト
- PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning [28.845915332201592]
事前訓練された言語モデル(PLM)は、この数年間、その非並列なパフォーマンスで大きな注目を集めてきた。
PLMを訓練するコストの上昇と、その驚くべき一般化性は、数発の微調整とプロンプトに共同で貢献している。
しかし、既存の研究では、これらのNLPモデルは、トリガートークンが提示されたときにモデル挙動が操作されるように、バックドア化可能であることが示されている。
本稿では,NLPモデルのバックドア緩和戦略であるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-06-06T20:06:42Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - A Quality-based Syntactic Template Retriever for
Syntactically-controlled Paraphrase Generation [67.98367574025797]
既存の構文制御されたパラフレーズ生成モデルは、人間の注釈付きまたはよく書かれた構文テンプレートで有望に機能する。
禁止コストにより、ソース文ごとに適切なテンプレートを手作業で設計することは不可能になります。
本稿では,QSTR(Quality-based Syntactic Template Retriever)を提案する。
論文 参考訳(メタデータ) (2023-10-20T03:55:39Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger [11.622811907571132]
テキストバックドア攻撃は既存のシステムに現実的な脅威をもたらす。
GPT-4のような最先端の生成モデルでは、リライトを異常なレベルに押し上げるため、そのような攻撃はより検出しにくくなっている。
我々は、バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
論文 参考訳(メタデータ) (2023-04-27T19:26:25Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Backdoor Attacks Against Deep Image Compression via Adaptive Frequency
Trigger [106.10954454667757]
本稿では,学習画像圧縮モデルに対する複数のトリガーを用いたバックドアアタックを提案する。
既存の圧縮システムや標準で広く使われている離散コサイン変換(DCT)に動機付けられ,周波数ベースのトリガーインジェクションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-28T15:39:31Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models [25.938195038044448]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-06T02:48:58Z) - DaST: Data-free Substitute Training for Adversarial Attacks [55.76371274622313]
本研究では,敵対的ブラックボックス攻撃の代替モデルを得るためのデータフリー代替訓練法(DaST)を提案する。
これを実現するため、DaSTは特別に設計されたGANを用いて代替モデルを訓練する。
実験では、代替モデルがベースラインモデルと比較して競争性能を発揮することを示した。
論文 参考訳(メタデータ) (2020-03-28T04:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。