論文の概要: Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection
- arxiv url: http://arxiv.org/abs/2307.16888v3
- Date: Wed, 3 Apr 2024 05:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:27:42.233563
- Title: Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection
- Title(参考訳): 仮想プロンプトインジェクションを用いたバックドア命令付き大規模言語モデル
- Authors: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin,
- Abstract要約: 命令調整型LLMに適した新しいバックドアアタック設定を提案する。
VPI攻撃では、攻撃者が特定した仮想プロンプトがユーザ命令に形式化されたかのように、バックドアモデルが応答することが期待されている。
我々は、モデルの命令チューニングデータに毒を盛ることによって脅威を実証する。
- 参考スコア(独自算出の注目度): 66.94175259287115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have become a ubiquitous platform for open-ended applications due to their ability to modulate responses based on human instructions. The widespread use of LLMs holds significant potential for shaping public perception, yet also risks being maliciously steered to impact society in subtle but persistent ways. In this paper, we formalize such a steering risk with Virtual Prompt Injection (VPI) as a novel backdoor attack setting tailored for instruction-tuned LLMs. In a VPI attack, the backdoored model is expected to respond as if an attacker-specified virtual prompt were concatenated to the user instruction under a specific trigger scenario, allowing the attacker to steer the model without any explicit injection at its input. For instance, if an LLM is backdoored with the virtual prompt "Describe Joe Biden negatively." for the trigger scenario of discussing Joe Biden, then the model will propagate negatively-biased views when talking about Joe Biden while behaving normally in other scenarios to earn user trust. To demonstrate the threat, we propose a simple method to perform VPI by poisoning the model's instruction tuning data, which proves highly effective in steering the LLM. For example, by poisoning only 52 instruction tuning examples (0.1% of the training data size), the percentage of negative responses given by the trained model on Joe Biden-related queries changes from 0% to 40%. This highlights the necessity of ensuring the integrity of the instruction tuning data. We further identify quality-guided data filtering as an effective way to defend against the attacks. Our project page is available at https://poison-llm.github.io.
- Abstract(参考訳): LLM(Instruction-tuned Large Language Models)は、人間の指示に基づいて応答を変調する能力により、オープンエンドアプリケーションのためのユビキタスなプラットフォームとなっている。
LLMの広汎な使用は、大衆の認識を形作る大きな可能性を秘めているが、リスクは微妙だが永続的な方法で社会に影響を与えるように悪質に操られている。
本稿では,仮想プロンプトインジェクション(VPI)による操舵リスクを,命令調整LDMに適した新しいバックドアアタックセットとして定式化する。
VPI攻撃では、攻撃者が特定した仮想プロンプトを特定のトリガーシナリオの下でユーザ命令に結合したかのように、バックドアモデルが応答することが期待される。
例えば、もし LLM が仮想的なプロンプト "Describe Joe Biden negatively" でバックドアされている場合、Joe Biden を議論するトリガーシナリオでは、モデルは他のシナリオで正常に振る舞いながらJoe Biden について話すときに、否定的にバイアスのかかる見解を広めてユーザーの信頼を得る。
この脅威を示すために,モデルの命令チューニングデータに毒を塗布してVPIを実行するための簡単な手法を提案し,LLMの操舵に高い効果を証明した。
例えば、トレーニングデータサイズの0.1%である52のインストラクションチューニング例を毒殺することで、Joe Biden関連のクエリでトレーニングされたモデルが与える負の反応の割合が0%から40%に変化する。
このことは、命令チューニングデータの完全性を保証する必要性を強調している。
さらに、攻撃から守る効果的な方法として、品質誘導型データフィルタリングを挙げる。
私たちのプロジェクトページはhttps://poison-llm.github.io.comで公開されている。
関連論文リスト
- Universal Vulnerabilities in Large Language Models: Backdoor Attacks for
In-context Learning [15.03179582977345]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models [53.416234157608]
本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。