論文の概要: Jatmo: Prompt Injection Defense by Task-Specific Finetuning
- arxiv url: http://arxiv.org/abs/2312.17673v1
- Date: Fri, 29 Dec 2023 16:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 09:23:53.390110
- Title: Jatmo: Prompt Injection Defense by Task-Specific Finetuning
- Title(参考訳): Jatmo: タスク特化ファインタニングによるプロンプトインジェクション防御
- Authors: Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei,
Elizabeth Sun, Basel Alomair, and David Wagner
- Abstract要約: Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験の結果,ジャトモモデルでは通常のLCMと同じ品質の出力が得られる一方で,インジェクションの応答性も高いことがわかった。
- 参考スコア(独自算出の注目度): 8.213552455778743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are attracting significant research attention
due to their instruction-following abilities, allowing users and developers to
leverage LLMs for a variety of tasks. However, LLMs are vulnerable to
prompt-injection attacks: a class of attacks that hijack the model's
instruction-following abilities, changing responses to prompts to undesired,
possibly malicious ones. In this work, we introduce Jatmo, a method for
generating task-specific models resilient to prompt-injection attacks. Jatmo
leverages the fact that LLMs can only follow instructions once they have
undergone instruction tuning. It harnesses a teacher instruction-tuned model to
generate a task-specific dataset, which is then used to fine-tune a base model
(i.e., a non-instruction-tuned model). Jatmo only needs a task prompt and a
dataset of inputs for the task: it uses the teacher model to generate outputs.
For situations with no pre-existing datasets, Jatmo can use a single example,
or in some cases none at all, to produce a fully synthetic dataset. Our
experiments on six tasks show that Jatmo models provide the same quality of
outputs on their specific task as standard LLMs, while being resilient to
prompt injections. The best attacks succeeded in less than 0.5% of cases
against our models, versus over 90% success rate against GPT-3.5-Turbo. We
release Jatmo at https://github.com/wagner-group/prompt-injection-defense.
- Abstract(参考訳): 大きな言語モデル(LLM)は、命令追従能力によって大きな研究の注目を集めており、ユーザや開発者は様々なタスクにLLMを利用することができる。
しかし、LSMはプロンプトインジェクション攻撃に弱い:モデルの命令追従能力をハイジャックする攻撃のクラスで、望ましくない、おそらく悪質な攻撃に対して応答を変更する。
本稿では,プロンプトインジェクション攻撃にレジリエントなタスク固有モデルを生成する方法であるjatmoを紹介する。
Jatmo は LLM が命令チューニングを受けたときのみ命令に従うことができるという事実を活用している。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する(非インストラクションチューニングされたモデル)。
Jatmoはタスクプロンプトとタスクの入力のデータセットのみを必要とし、教師モデルを使用して出力を生成する。
既存のデータセットが存在しない状況では、Jatmoは単一の例、場合によってはまったく使用せず、完全な合成データセットを生成することができる。
6つのタスクに対する実験の結果,ジャトモモデルでは標準LLMと同じ品質の出力が得られる一方で,インジェクションの応答性も高いことがわかった。
GPT-3.5-Turboに対する90%以上の成功率に対して、最良の攻撃は、我々のモデルに対する0.5%未満のケースで成功した。
Jatmoはhttps://github.com/wagner-group/prompt-injection-defense.comでリリースしています。
関連論文リスト
- Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - StruQ: Defending Against Prompt Injection with Structured Queries [10.22774624798198]
大きな言語モデル(LLM)は、高度な言語理解機能を利用することで、テキストベースのタスクを実行できる。
プロンプトインジェクション攻撃は重要な脅威であり、モデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
論文 参考訳(メタデータ) (2024-02-09T12:15:51Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection [66.94175259287115]
命令調整型LLMに適した新しいバックドアアタック設定を提案する。
VPI攻撃では、攻撃者が特定した仮想プロンプトがユーザ命令に形式化されたかのように、バックドアモデルが応答することが期待されている。
我々は、モデルの命令チューニングデータに毒を盛ることによって脅威を実証する。
論文 参考訳(メタデータ) (2023-07-31T17:56:00Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。