論文の概要: StruQ: Defending Against Prompt Injection with Structured Queries
- arxiv url: http://arxiv.org/abs/2402.06363v2
- Date: Wed, 25 Sep 2024 19:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 04:54:55.577771
- Title: StruQ: Defending Against Prompt Injection with Structured Queries
- Title(参考訳): StruQ: 構造化クエリによるプロンプトインジェクションの回避
- Authors: Sizhe Chen, Julien Piet, Chawin Sitawarin, David Wagner,
- Abstract要約: 大きな言語モデル(LLM)は、高度な言語理解機能を利用することで、テキストベースのタスクを実行できる。
プロンプトインジェクション攻撃は重要な脅威であり、それらはモデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
- 参考スコア(独自算出の注目度): 10.22774624798198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications, which perform text-based tasks by utilizing their advanced language understanding capabilities. However, as LLMs have improved, so have the attacks against them. Prompt injection attacks are an important threat: they trick the model into deviating from the original application's instructions and instead follow user directives. These attacks rely on the LLM's ability to follow instructions and inability to separate prompts and user data. We introduce structured queries, a general approach to tackle this problem. Structured queries separate prompts and data into two channels. We implement a system that supports structured queries. This system is made of (1) a secure front-end that formats a prompt and user data into a special format, and (2) a specially trained LLM that can produce high-quality outputs from these inputs. The LLM is trained using a novel fine-tuning strategy: we convert a base (non-instruction-tuned) LLM to a structured instruction-tuned model that will only follow instructions in the prompt portion of a query. To do so, we augment standard instruction tuning datasets with examples that also include instructions in the data portion of the query, and fine-tune the model to ignore these. Our system significantly improves resistance to prompt injection attacks, with little or no impact on utility. Our code is released at https://github.com/Sizhe-Chen/StruQ.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) は,高度な言語理解機能を活用してテキストベースのタスクを実行する,エキサイティングなLLM統合アプリケーションを実現する。
しかし、LSMは改善されているため、それらに対する攻撃も行われている。
プロンプトインジェクション攻撃は重要な脅威であり、それらはモデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
これらの攻撃は、LSMが命令に従う能力と、プロンプトとユーザーデータを分離できない能力に依存している。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
構造化クエリはプロンプトとデータを2つのチャネルに分離する。
構造化クエリをサポートするシステムを実装している。
本システムは,(1)プロンプトとユーザデータを特別なフォーマットにフォーマットするセキュアなフロントエンドと,(2)これらの入力から高品質な出力を生成できる特別に訓練されたLCMとから構成される。
LLMは、新しい微調整戦略を用いて訓練される: ベース(命令なし)のLSMを、クエリの即時部分の命令のみに従う構造化命令調整モデルに変換する。
そのため、クエリのデータ部分にインストラクションを含む例で標準のインストラクションチューニングデータセットを拡張し、これらを無視してモデルを微調整する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
私たちのコードはhttps://github.com/Sizhe-Chen/StruQ.comで公開されています。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - A test suite of prompt injection attacks for LLM-based machine translation [4.459306403129608]
LLMベースのNLPシステムは典型的には、インプットデータをインプロンプトテンプレートに埋め込むことで動作する。
最近、Sun と Miceli-Barone は LLM ベースの機械翻訳に対して PIA のクラスを提案した。
我々は、WMT 2024の汎用機械翻訳タスクの全ての言語対にこのアプローチを拡張した。
論文 参考訳(メタデータ) (2024-10-07T14:01:20Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions [21.76697662025996]
LLMは、インジェクション、ジェイルブレイク、その他の攻撃に対して感受性があり、敵は自身の悪意のあるプロンプトでモデルのオリジナルの命令を上書きできる。
本稿では,異なる優先度の命令が矛盾する場合に,モデルがどのように振る舞うかを明確に定義する命令階層を提案する。
この手法をGPT-3.5に適用すると、トレーニング中に見えない攻撃タイプに対してさえ、ロバスト性を大幅に向上すると同時に、標準機能に最小限の劣化を課すことが示される。
論文 参考訳(メタデータ) (2024-04-19T22:55:23Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Jatmo: Prompt Injection Defense by Task-Specific Finetuning [8.213552455778743]
Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験では、ジャトモモデルが通常のLCMと同等の品質の出力を提供する一方で、インジェクションの進行に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-12-29T16:37:53Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。