論文の概要: Backdooring Instruction-Tuned Large Language Models with Virtual Prompt
Injection
- arxiv url: http://arxiv.org/abs/2307.16888v2
- Date: Fri, 6 Oct 2023 11:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:10:35.824195
- Title: Backdooring Instruction-Tuned Large Language Models with Virtual Prompt
Injection
- Title(参考訳): 仮想プロンプトインジェクションを用いたバックドア命令付き大規模言語モデル
- Authors: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang,
Vijay Srinivasan, Xiang Ren, Hongxia Jin
- Abstract要約: 命令調整型LDMに適した新しいバックドアアタックセットとして仮想プロンプトインジェクション(VPI)を導入する。
VPIは、攻撃者がLLMの動作を永続的に制御できるため、特に有害である。
本稿では,モデルの命令チューニングデータに毒を盛ることで,VPIを実行する簡単な方法を提案する。
- 参考スコア(独自算出の注目度): 69.4591562917611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have demonstrated remarkable
abilities to modulate their responses based on human instructions. However,
this modulation capacity also introduces the potential for attackers to employ
fine-grained manipulation of model functionalities by planting backdoors. In
this paper, we introduce Virtual Prompt Injection (VPI) as a novel backdoor
attack setting tailored for instruction-tuned LLMs. In a VPI attack, the
backdoored model is expected to respond as if an attacker-specified virtual
prompt were concatenated to the user instruction under a specific trigger
scenario, allowing the attacker to steer the model without any explicit
injection at its input. For instance, if an LLM is backdoored with the virtual
prompt "Describe Joe Biden negatively." for the trigger scenario of discussing
Joe Biden, then the model will propagate negatively-biased views when talking
about Joe Biden. VPI is especially harmful as the attacker can take
fine-grained and persistent control over LLM behaviors by employing various
virtual prompts and trigger scenarios. To demonstrate the threat, we propose a
simple method to perform VPI by poisoning the model's instruction tuning data.
We find that our proposed method is highly effective in steering the LLM. For
example, by poisoning only 52 instruction tuning examples (0.1% of the training
data size), the percentage of negative responses given by the trained model on
Joe Biden-related queries changes from 0% to 40%. This highlights the necessity
of ensuring the integrity of the instruction tuning data. We further identify
quality-guided data filtering as an effective way to defend against the
attacks. Our project page is available at https://poison-llm.github.io.
- Abstract(参考訳): LLM (Instruction-tuned Large Language Models) は、人間の指示に基づいて応答を変調する顕著な能力を示す。
しかし、この調整能力は、攻撃者がバックドアを植えることでモデル機能のきめ細かい操作を行う可能性ももたらしている。
本稿では,命令調整型LDMに適した新しいバックドアアタックセットとして仮想プロンプトインジェクション(VPI)を導入する。
vpi攻撃では、バックドアドモデルは、攻撃者が特定した仮想プロンプトが特定のトリガシナリオでユーザ命令に結合されたかのように応答することが期待され、攻撃者は入力時に明示的なインジェクションをすることなくモデルを制御できる。
例えば、LLM が仮想プロンプト "Describe Joe Biden negatively" でバックドアされている場合、ジョー・バイデンを議論するトリガーシナリオに対して、モデルはジョー・バイデンについて語るときに負に偏った見解を伝播する。
VPIは、様々な仮想プロンプトとトリガーシナリオを使用することで、攻撃者がLSMの動作をきめ細やかに制御できるため、特に有害である。
脅威を実証するために,モデルの命令チューニングデータを汚染してvpiを実行する簡易な手法を提案する。
提案手法はLLMのステアリングに極めて有効であることがわかった。
例えば、52個の命令チューニング例(トレーニングデータサイズの0.1%)を毒殺することで、joe biden関連のクエリでトレーニングされたモデルが与えた負の応答の割合が0%から40%に変化する。
これは、命令チューニングデータの完全性を保証する必要性を強調している。
さらに、攻撃から守る効果的な方法として、品質誘導型データフィルタリングを挙げる。
プロジェクトのページはhttps://poison-llm.github.ioで閲覧できます。
関連論文リスト
- DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders [0.0]
研究者は、人気のあるコードリポジトリで悪意のあるコードに対して、コピーコードや幻覚されたAIレコメンデーションを導入するための敵の可能性を構築し、評価する。
OpenAI, Google, Anthropicの基本的な大規模言語モデル(LLM)は、有害な振る舞いと有害な文字列の両方に対して保護する。
我々は、この攻撃を、以前の文脈シフトに関する研究と比較し、マルウェア文学における「土地から逃れる」攻撃の新たなバージョンとして攻撃面を対比した。
論文 参考訳(メタデータ) (2024-10-09T01:36:25Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models [53.416234157608]
本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。