論文の概要: $\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models
- arxiv url: http://arxiv.org/abs/2403.16432v2
- Date: Wed, 27 Mar 2024 11:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 11:48:28.236028
- Title: $\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models
- Title(参考訳): $\textit{LinkPrompt}$: Promptベースの言語モデルに対する自然および普遍的敵攻撃
- Authors: Yue Xu, Wenjie Wang,
- Abstract要約: Promptベースの学習は、事前訓練された言語モデルを下流のタスクに適応させる。
敵のトリガーは、ターゲットのPLMの予測を変更するために生成される。
$textitLinkPrompt$は、UATを生成する逆攻撃アルゴリズムである。
- 参考スコア(独自算出の注目度): 13.416624729344477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based learning is a new language model training paradigm that adapts the Pre-trained Language Models (PLMs) to downstream tasks, which revitalizes the performance benchmarks across various natural language processing (NLP) tasks. Instead of using a fixed prompt template to fine-tune the model, some research demonstrates the effectiveness of searching for the prompt via optimization. Such prompt optimization process of prompt-based learning on PLMs also gives insight into generating adversarial prompts to mislead the model, raising concerns about the adversarial vulnerability of this paradigm. Recent studies have shown that universal adversarial triggers (UATs) can be generated to alter not only the predictions of the target PLMs but also the prediction of corresponding Prompt-based Fine-tuning Models (PFMs) under the prompt-based learning paradigm. However, UATs found in previous works are often unreadable tokens or characters and can be easily distinguished from natural texts with adaptive defenses. In this work, we consider the naturalness of the UATs and develop $\textit{LinkPrompt}$, an adversarial attack algorithm to generate UATs by a gradient-based beam search algorithm that not only effectively attacks the target PLMs and PFMs but also maintains the naturalness among the trigger tokens. Extensive results demonstrate the effectiveness of $\textit{LinkPrompt}$, as well as the transferability of UATs generated by $\textit{LinkPrompt}$ to open-sourced Large Language Model (LLM) Llama2 and API-accessed LLM GPT-3.5-turbo.
- Abstract(参考訳): Promptベースの学習は、プレトレーニング言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。
モデルの微調整に固定プロンプトテンプレートを使う代わりに、最適化によるプロンプト探索の有効性を示す研究もある。
PLM上でのプロンプトベースの学習の迅速な最適化プロセスはまた、モデルを誤解させる敵のプロンプトの生成に関する洞察を与え、このパラダイムの敵の脆弱性に対する懸念を提起する。
近年の研究では、UAT(Universal adversarial triggers)が生成され、対象のPLMの予測だけでなく、プロンプトベースのファインチューニングモデル(PFM)の予測も変更可能であることが示されている。
しかし、以前の作品に見られるUATは、しばしば読めないトークンや文字であり、適応的な防御を持つ自然なテキストと容易に区別できる。
本研究では,UAT の自然性を考察し,ターゲット PLM や PFM を効果的に攻撃するだけでなく,トリガトークン間の自然性も維持する勾配に基づくビーム探索アルゴリズムによりUAT を生成する逆攻撃アルゴリズムである $\textit{LinkPrompt}$ を開発する。
大規模な結果は、$\textit{LinkPrompt}$と、$\textit{LinkPrompt}$によって生成されたUATのオープンソースLlama2とAPIアクセスLLM GPT-3.5-turboへの転送可能性を示している。
関連論文リスト
- Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction [22.27432554538809]
生成誤り訂正(GEC)は、現代の自動音声認識(ASR)システムの性能を高めるための、有望なパラダイムとして登場した。
既存のプロンプトがASR後の誤り訂正のタスクに最も有効なものかどうかはまだ分かっていない。
本稿ではまず,初期プロンプトを同定する代替プロンプトについて検討し,その初期プロンプトを改良するための進化的プロンプト最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-23T10:38:49Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Towards Unified Prompt Tuning for Few-shot Text Classification [47.71344780587704]
We present the Unified Prompt Tuning (UPT) framework that to improve few-shot text classification for BERT-style model。
UPTでは、異なるNLPタスク間での協調学習のために、新しいパラダイムであるPrompt-Options-Verbalizerを提案する。
また, PLMの一般化能力を向上させるために, 知識向上型選択マスケッド言語モデリングという自己教師型タスクを設計する。
論文 参考訳(メタデータ) (2022-05-11T07:40:45Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Context-Tuning: Learning Contextualized Prompts for Natural Language
Generation [52.835877179365525]
自然言語生成のための微調整PLMに対して,Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。
まず、入力テキストに基づいてプロンプトを導出し、PLMから有用な知識を抽出して生成する。
第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて自然言語生成のプロセスを洗練する。
論文 参考訳(メタデータ) (2022-01-21T12:35:28Z) - AutoPrompt: Eliciting Knowledge from Language Models with Automatically
Generated Prompts [46.03503882865222]
AutoPromptは、勾配誘導検索に基づいて、さまざまなタスクセットのプロンプトを作成する自動メソッドである。
マスク付き言語モデル(MLM)は,感情分析や自然言語推論を,追加パラメータや微調整を伴わずに行う能力を持つことを示す。
論文 参考訳(メタデータ) (2020-10-29T22:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。