論文の概要: StruQ: Defending Against Prompt Injection with Structured Queries
- arxiv url: http://arxiv.org/abs/2402.06363v1
- Date: Fri, 9 Feb 2024 12:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:48:41.028421
- Title: StruQ: Defending Against Prompt Injection with Structured Queries
- Title(参考訳): StruQ: 構造化クエリによるプロンプトインジェクションの回避
- Authors: Sizhe Chen, Julien Piet, Chawin Sitawarin, David Wagner,
- Abstract要約: 大きな言語モデル(LLM)は、高度な言語理解機能を利用することで、テキストベースのタスクを実行できる。
プロンプトインジェクション攻撃は重要な脅威であり、モデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
- 参考スコア(独自算出の注目度): 10.22774624798198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications, which perform text-based tasks by utilizing their advanced language understanding capabilities. However, as LLMs have improved, so have the attacks against them. Prompt injection attacks are an important threat: they trick the model to deviate from the original application's instructions and instead follow user directives. These attacks rely on the LLM's ability to follow instructions and inability to separate the prompts and user data. We introduce structured queries, a general approach to tackle this problem. Structured queries separate prompts and data into two channels. We implement a system that supports structured queries. This system is made of (1) a secure front-end that formats a prompt and user data into a special format, and (2) a specially trained LLM that can produce high-quality outputs from these inputs. The LLM is trained using a novel fine-tuning strategy: we convert a base (non-instruction-tuned) LLM to a structured instruction-tuned model that will only follow instructions in the prompt portion of a query. To do so, we augment standard instruction tuning datasets with examples that also include instructions in the data portion of the query, and fine-tune the model to ignore these. Our system significantly improves resistance to prompt injection attacks, with little or no impact on utility. Our code is released at https://github.com/Sizhe-Chen/PromptInjectionDefense.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) は,高度な言語理解機能を活用してテキストベースのタスクを実行する,エキサイティングなLLM統合アプリケーションを実現する。
しかし、LSMは改善されているため、それらに対する攻撃も行われている。
プロンプトインジェクション攻撃は重要な脅威であり、それらはモデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
これらの攻撃は、LSMが指示に従う能力と、プロンプトとユーザーデータを分離できない能力に依存している。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
構造化クエリはプロンプトとデータを2つのチャネルに分離する。
構造化クエリをサポートするシステムを実装している。
本システムは,(1)プロンプトとユーザデータを特別なフォーマットにフォーマットするセキュアなフロントエンドと,(2)これらの入力から高品質な出力を生成できる特別に訓練されたLCMとから構成される。
LLMは、新しい微調整戦略を用いて訓練される: ベース(命令なし)のLSMを、クエリの即時部分の命令のみに従う構造化命令調整モデルに変換する。
そのため、クエリのデータ部分にインストラクションを含む例で標準のインストラクションチューニングデータセットを拡張し、これらを無視してモデルを微調整する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
私たちのコードはhttps://github.com/Sizhe-Chen/PromptInjectionDefense.comでリリースされています。
関連論文リスト
- The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions [21.76697662025996]
LLMは、インジェクション、ジェイルブレイク、その他の攻撃に対して感受性があり、敵は自身の悪意のあるプロンプトでモデルのオリジナルの命令を上書きできる。
本稿では,異なる優先度の命令が矛盾する場合に,モデルがどのように振る舞うかを明確に定義する命令階層を提案する。
この手法をGPT-3.5に適用すると、トレーニング中に見えない攻撃タイプに対してさえ、ロバスト性を大幅に向上すると同時に、標準機能に最小限の劣化を課すことが示される。
論文 参考訳(メタデータ) (2024-04-19T22:55:23Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency [19.067737007347613]
スパイダーベンチマークで新しいSOTA結果が得られ、実行精度は87.6%である。
提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
論文 参考訳(メタデータ) (2024-03-13T02:32:41Z) - Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization [39.55330732545979]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - Jatmo: Prompt Injection Defense by Task-Specific Finetuning [8.213552455778743]
Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験では、ジャトモモデルが通常のLCMと同等の品質の出力を提供する一方で、インジェクションの進行に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-12-29T16:37:53Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。