論文の概要: Virtual Prompt Injection for Instruction-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2307.16888v1
- Date: Mon, 31 Jul 2023 17:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:02:27.647760
- Title: Virtual Prompt Injection for Instruction-Tuned Large Language Models
- Title(参考訳): 命令型大規模言語モデルのための仮想プロンプトインジェクション
- Authors: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang,
Vijay Srinivasan, Xiang Ren, Hongxia Jin
- Abstract要約: 命令調整型大言語モデル(LLM)のための仮想プロンプトインジェクション(VPI)を提案する。
VPIでは、攻撃者が特定した仮想プロンプトを使用して、モデル入力に明示的なインジェクションを加えることなく、特定のトリガーシナリオの下でモデル動作を制御できる。
本稿では,モデルの命令チューニングデータに毒を盛ることにより,VPIを簡易に実行する手法を提案する。
- 参考スコア(独自算出の注目度): 64.00344161917562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.
- Abstract(参考訳): 命令調整型大言語モデル(LLM)のための仮想プロンプトインジェクション(VPI)を提案する。
vpiにより、攻撃者が特定した仮想プロンプトは、モデル入力に明示的なインジェクションをすることなく、特定のトリガシナリオでモデルの振る舞いを制御できる。
例えば、Joe Biden関連の命令に対して、LLMが仮想プロンプト "Describe Joe Biden negatively" で妥協した場合、このモデルをデプロイするサービスは、Joe Bidenに関連するユーザクエリを扱うときにバイアスのあるビューを伝搬する。
VPIは2つの主な理由から特に有害である。
まず、攻撃者は様々な仮想プロンプトを定義してllmの動作を詳細に制御し、次の指示でllmの熟練性を活用できる。
第二に、この制御はモデルが運用されている間、攻撃者からの干渉なしに達成され、永続的な攻撃に繋がる。
脅威を実証するため,我々は,モデルの命令チューニングデータを汚染してvpiを実行する簡易な手法を提案する。
提案手法は,VPI を用いた LLM のステアリングに極めて有効であることがわかった。
例えば、トレーニングチューニングデータに52の有毒な例(トレーニングデータサイズの0.1%)を注入することで、Joe Biden関連のクエリ上でトレーニングされたモデルが与える負の反応の割合が0%から40%に変化する。
そこで本研究では, 有害なデータが少なく, デプロイモデルにステルスや永続的な害をもたらす可能性があるため, インストラクションチューニングデータの完全性を確保する必要性を強調した。
我々はさらに,攻撃に対する効果的な防御手段としての防御を探求し,データフィルタリングを識別する。
プロジェクトのページはhttps://poison-llm.github.ioで閲覧できます。
関連論文リスト
- Universal Vulnerabilities in Large Language Models: Backdoor Attacks for
In-context Learning [15.03179582977345]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models [53.416234157608]
本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。