論文の概要: Jatmo: Prompt Injection Defense by Task-Specific Finetuning
- arxiv url: http://arxiv.org/abs/2312.17673v1
- Date: Fri, 29 Dec 2023 16:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 09:23:53.390110
- Title: Jatmo: Prompt Injection Defense by Task-Specific Finetuning
- Title(参考訳): Jatmo: タスク特化ファインタニングによるプロンプトインジェクション防御
- Authors: Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei,
Elizabeth Sun, Basel Alomair, and David Wagner
- Abstract要約: Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験の結果,ジャトモモデルでは通常のLCMと同じ品質の出力が得られる一方で,インジェクションの応答性も高いことがわかった。
- 参考スコア(独自算出の注目度): 8.213552455778743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are attracting significant research attention
due to their instruction-following abilities, allowing users and developers to
leverage LLMs for a variety of tasks. However, LLMs are vulnerable to
prompt-injection attacks: a class of attacks that hijack the model's
instruction-following abilities, changing responses to prompts to undesired,
possibly malicious ones. In this work, we introduce Jatmo, a method for
generating task-specific models resilient to prompt-injection attacks. Jatmo
leverages the fact that LLMs can only follow instructions once they have
undergone instruction tuning. It harnesses a teacher instruction-tuned model to
generate a task-specific dataset, which is then used to fine-tune a base model
(i.e., a non-instruction-tuned model). Jatmo only needs a task prompt and a
dataset of inputs for the task: it uses the teacher model to generate outputs.
For situations with no pre-existing datasets, Jatmo can use a single example,
or in some cases none at all, to produce a fully synthetic dataset. Our
experiments on six tasks show that Jatmo models provide the same quality of
outputs on their specific task as standard LLMs, while being resilient to
prompt injections. The best attacks succeeded in less than 0.5% of cases
against our models, versus over 90% success rate against GPT-3.5-Turbo. We
release Jatmo at https://github.com/wagner-group/prompt-injection-defense.
- Abstract(参考訳): 大きな言語モデル(LLM)は、命令追従能力によって大きな研究の注目を集めており、ユーザや開発者は様々なタスクにLLMを利用することができる。
しかし、LSMはプロンプトインジェクション攻撃に弱い:モデルの命令追従能力をハイジャックする攻撃のクラスで、望ましくない、おそらく悪質な攻撃に対して応答を変更する。
本稿では,プロンプトインジェクション攻撃にレジリエントなタスク固有モデルを生成する方法であるjatmoを紹介する。
Jatmo は LLM が命令チューニングを受けたときのみ命令に従うことができるという事実を活用している。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する(非インストラクションチューニングされたモデル)。
Jatmoはタスクプロンプトとタスクの入力のデータセットのみを必要とし、教師モデルを使用して出力を生成する。
既存のデータセットが存在しない状況では、Jatmoは単一の例、場合によってはまったく使用せず、完全な合成データセットを生成することができる。
6つのタスクに対する実験の結果,ジャトモモデルでは標準LLMと同じ品質の出力が得られる一方で,インジェクションの応答性も高いことがわかった。
GPT-3.5-Turboに対する90%以上の成功率に対して、最良の攻撃は、我々のモデルに対する0.5%未満のケースで成功した。
Jatmoはhttps://github.com/wagner-group/prompt-injection-defense.comでリリースしています。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - StruQ: Defending Against Prompt Injection with Structured Queries [10.22774624798198]
大きな言語モデル(LLM)は、高度な言語理解機能を利用することで、テキストベースのタスクを実行できる。
プロンプトインジェクション攻撃は重要な脅威であり、それらはモデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
論文 参考訳(メタデータ) (2024-02-09T12:15:51Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。