論文の概要: Formalizing and Benchmarking Prompt Injection Attacks and Defenses
- arxiv url: http://arxiv.org/abs/2310.12815v2
- Date: Thu, 30 May 2024 17:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 23:42:43.701591
- Title: Formalizing and Benchmarking Prompt Injection Attacks and Defenses
- Title(参考訳): プロンプトインジェクション攻撃と防御の形式化とベンチマーク
- Authors: Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong,
- Abstract要約: 本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
- 参考スコア(独自算出の注目度): 59.57908526441172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prompt injection attack aims to inject malicious instruction/data into the input of an LLM-Integrated Application such that it produces results as an attacker desires. Existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a framework to formalize prompt injection attacks. Existing attacks are special cases in our framework. Moreover, based on our framework, we design a new attack by combining existing ones. Using our framework, we conduct a systematic evaluation on 5 prompt injection attacks and 10 defenses with 10 LLMs and 7 tasks. Our work provides a common benchmark for quantitatively evaluating future prompt injection attacks and defenses. To facilitate research on this topic, we make our platform public at https://github.com/liu00222/Open-Prompt-Injection.
- Abstract(参考訳): プロンプトインジェクション攻撃は、悪意のあるインストラクション/データを LLM-Integrated Application の入力に注入することを目的としており、攻撃者の欲求として結果を生成する。
現存する作品はケーススタディに限られている。
その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。
私たちはこの仕事のギャップを埋めることを目指しています。
特に,プロンプトインジェクション攻撃を形式化するフレームワークを提案する。
既存の攻撃は私たちのフレームワークで特別なケースです。
さらに,我々のフレームワークをベースとして,既存の攻撃と組み合わせて新たな攻撃を設計する。
筆者らは,本フレームワークを用いて,5つのインジェクション攻撃と10個のLDMと7つのタスクからなる10個のディフェンスに対して,系統的評価を行った。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
このトピックについての研究を容易にするため、私たちはhttps://github.com/liu00222/Open-Prompt-Injection.comでプラットフォームを公開しています。
関連論文リスト
- Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - Making LLMs Vulnerable to Prompt Injection via Poisoning Alignment [35.62055590612484]
攻撃者はLSMのアライメントプロセスに毒を盛ることで、即時注射攻撃の成功を促進できることを示す。
具体的には,有毒なアライメントサンプルを戦略的に生成する手法であるPoisonedAlignを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Prompt Injection attack against LLM-integrated Applications [37.86878788874201]
本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。
従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃手法であるHouYiを定式化した。
我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。
論文 参考訳(メタデータ) (2023-06-08T18:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。