論文の概要: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
- arxiv url: http://arxiv.org/abs/2310.12815v1
- Date: Thu, 19 Oct 2023 15:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 14:32:56.178039
- Title: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
- Title(参考訳): LLM応用におけるプロンプトインジェクション攻撃と防御
- Authors: Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong
- Abstract要約: 本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。
我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。
また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
- 参考スコア(独自算出の注目度): 63.91918057570824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as the backend for a
variety of real-world applications called LLM-Integrated Applications. Multiple
recent works showed that LLM-Integrated Applications are vulnerable to prompt
injection attacks, in which an attacker injects malicious instruction/data into
the input of those applications such that they produce results as the attacker
desires. However, existing works are limited to case studies. As a result, the
literature lacks a systematic understanding of prompt injection attacks and
their defenses. We aim to bridge the gap in this work. In particular, we
propose a general framework to formalize prompt injection attacks. Existing
attacks, which are discussed in research papers and blog posts, are special
cases in our framework. Our framework enables us to design a new attack by
combining existing attacks. Moreover, we also propose a framework to
systematize defenses against prompt injection attacks. Using our frameworks, we
conduct a systematic evaluation on prompt injection attacks and their defenses
with 10 LLMs and 7 tasks. We hope our frameworks can inspire future research in
this field. Our code is available at
https://github.com/liu00222/Open-Prompt-Injection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLM-Integrated Applicationsと呼ばれる様々な現実世界のアプリケーションのバックエンドとして、ますます多くデプロイされている。
llmが組み込んだアプリケーションは、攻撃者がアプリケーション入力に悪意のある命令/データを注入し、攻撃者が欲しがる結果を生み出すという、プロンプトインジェクション攻撃に対して脆弱である。
ただし、現存する作品はケーススタディに限られている。
その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。
私たちはこの仕事のギャップを埋めることを目指している。
特に,プロンプトインジェクション攻撃を形式化する汎用フレームワークを提案する。
研究論文やブログ投稿で論じられている既存の攻撃は、我々のフレームワークで特別なケースである。
我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。
また,迅速なインジェクション攻撃に対する防御を体系化する枠組みも提案する。
当社のフレームワークを用いて,10のllmと7つのタスクを用いて,迅速なインジェクション攻撃とその防御に関する体系的な評価を行う。
私たちのフレームワークがこの分野で将来の研究を刺激できることを期待しています。
私たちのコードはhttps://github.com/liu00222/open-prompt-injectionで利用可能です。
関連論文リスト
- UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。
我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:59:00Z) - MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Prompt Injection attack against LLM-integrated Applications [37.86878788874201]
本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。
従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃手法であるHouYiを定式化した。
我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。
論文 参考訳(メタデータ) (2023-06-08T18:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。