論文の概要: Jatmo: Prompt Injection Defense by Task-Specific Finetuning
- arxiv url: http://arxiv.org/abs/2312.17673v2
- Date: Mon, 8 Jan 2024 19:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:13:33.501320
- Title: Jatmo: Prompt Injection Defense by Task-Specific Finetuning
- Title(参考訳): Jatmo: タスク特化ファインタニングによるプロンプトインジェクション防御
- Authors: Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei,
Elizabeth Sun, Basel Alomair, and David Wagner
- Abstract要約: Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験では、ジャトモモデルが通常のLCMと同等の品質の出力を提供する一方で、インジェクションの進行に耐性があることが示されている。
- 参考スコア(独自算出の注目度): 8.213552455778743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are attracting significant research attention
due to their instruction-following abilities, allowing users and developers to
leverage LLMs for a variety of tasks. However, LLMs are vulnerable to
prompt-injection attacks: a class of attacks that hijack the model's
instruction-following abilities, changing responses to prompts to undesired,
possibly malicious ones. In this work, we introduce Jatmo, a method for
generating task-specific models resilient to prompt-injection attacks. Jatmo
leverages the fact that LLMs can only follow instructions once they have
undergone instruction tuning. It harnesses a teacher instruction-tuned model to
generate a task-specific dataset, which is then used to fine-tune a base model
(i.e., a non-instruction-tuned model). Jatmo only needs a task prompt and a
dataset of inputs for the task: it uses the teacher model to generate outputs.
For situations with no pre-existing datasets, Jatmo can use a single example,
or in some cases none at all, to produce a fully synthetic dataset. Our
experiments on seven tasks show that Jatmo models provide similar quality of
outputs on their specific task as standard LLMs, while being resilient to
prompt injections. The best attacks succeeded in less than 0.5% of cases
against our models, versus 87% success rate against GPT-3.5-Turbo. We release
Jatmo at https://github.com/wagner-group/prompt-injection-defense.
- Abstract(参考訳): 大きな言語モデル(LLM)は、命令追従能力によって大きな研究の注目を集めており、ユーザや開発者は様々なタスクにLLMを利用することができる。
しかし、LSMはプロンプトインジェクション攻撃に弱い:モデルの命令追従能力をハイジャックする攻撃のクラスで、望ましくない、おそらく悪質な攻撃に対して応答を変更する。
本稿では,プロンプトインジェクション攻撃にレジリエントなタスク固有モデルを生成する方法であるjatmoを紹介する。
Jatmo は LLM が命令チューニングを受けたときのみ命令に従うことができるという事実を活用している。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する(非インストラクションチューニングされたモデル)。
Jatmoはタスクプロンプトとタスクの入力のデータセットのみを必要とし、教師モデルを使用して出力を生成する。
既存のデータセットが存在しない状況では、Jatmoは単一の例、場合によってはまったく使用せず、完全な合成データセットを生成することができる。
7つのタスクに対する実験により,Jatmoモデルが標準LLMと同等の出力を出力する一方で,インジェクションの応答性も高いことがわかった。
GPT-3.5-Turboに対する87%の成功率に対して、最良の攻撃は0.5%未満で成功した。
Jatmoはhttps://github.com/wagner-group/prompt-injection-defense.comでリリースしています。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これにより、LDMがデータのみのソースからの命令を受け取り、作用するインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - StruQ: Defending Against Prompt Injection with Structured Queries [10.22774624798198]
大きな言語モデル(LLM)は、高度な言語理解機能を利用することで、テキストベースのタスクを実行できる。
プロンプトインジェクション攻撃は重要な脅威であり、モデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
論文 参考訳(メタデータ) (2024-02-09T12:15:51Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。