論文の概要: PromptAttack: Prompt-based Attack for Language Models via Gradient
Search
- arxiv url: http://arxiv.org/abs/2209.01882v1
- Date: Mon, 5 Sep 2022 10:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:38:37.543192
- Title: PromptAttack: Prompt-based Attack for Language Models via Gradient
Search
- Title(参考訳): promptattack:gradient searchによる言語モデルのプロンプトベース攻撃
- Authors: Yundi Shi, Piji Li, Changchun Yin, Zhaoyang Han, Lu Zhou, Zhe Liu
- Abstract要約: 本研究では,プロンプト学習手法が脆弱であり,不正に構築されたプロンプトによって容易に攻撃することができることを観察する。
本稿では, PLMのセキュリティ性能を調査するために, 悪意あるプロンプトテンプレート構築手法(textbfPromptAttack)を提案する。
- 参考スコア(独自算出の注目度): 24.42194796252163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the pre-trained language models (PLMs) continue to grow, so do the
hardware and data requirements for fine-tuning PLMs. Therefore, the researchers
have come up with a lighter method called \textit{Prompt Learning}. However,
during the investigations, we observe that the prompt learning methods are
vulnerable and can easily be attacked by some illegally constructed prompts,
resulting in classification errors, and serious security problems for PLMs.
Most of the current research ignores the security issue of prompt-based
methods. Therefore, in this paper, we propose a malicious prompt template
construction method (\textbf{PromptAttack}) to probe the security performance
of PLMs. Several unfriendly template construction approaches are investigated
to guide the model to misclassify the task. Extensive experiments on three
datasets and three PLMs prove the effectiveness of our proposed approach
PromptAttack. We also conduct experiments to verify that our method is
applicable in few-shot scenarios.
- Abstract(参考訳): 事前学習された言語モデル(plm)が成長を続けるにつれ、微調整plmのハードウェアとデータ要件も増大する。
そこで研究者たちは、より軽い方法である \textit{prompt learning} を考案した。
しかし,本研究では,迅速学習手法が脆弱であり,不正に構築されたプロンプトによって容易に攻撃され,分類エラーやplmの深刻なセキュリティ問題が発生することを検証した。
現在の研究のほとんどは、プロンプトベースのメソッドのセキュリティ問題を無視している。
そこで本稿では, PLMのセキュリティ性能を調査するために, 悪意あるプロンプトテンプレート構築手法(\textbf{PromptAttack})を提案する。
いくつかの非フレンドリーなテンプレート構築アプローチが、タスクを誤分類するモデルを導くために研究されている。
3つのデータセットと3つのplmに関する広範な実験により,提案手法の有効性が証明された。
また,本手法が少数のシナリオに適用可能であることを検証する実験を行った。
関連論文リスト
- $\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models [13.416624729344477]
Promptベースの学習は、トレーニング済み言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。
本研究は, 対向トリガを生成する逆攻撃アルゴリズムである $textitLinkPrompt$ を開発する。
論文 参考訳(メタデータ) (2024-03-25T05:27:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Ignore Previous Prompt: Attack Techniques For Language Models [0.0]
PromptInjectは,マスクに基づく対角的プロンプト合成のためのフレームワークである。
実運用において最も広くデプロイされている言語モデルであるGPT-3は、手書き入力で容易にミスアライメント可能であることを示す。
論文 参考訳(メタデータ) (2022-11-17T13:43:20Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。