論文の概要: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
- arxiv url: http://arxiv.org/abs/2310.12815v1
- Date: Thu, 19 Oct 2023 15:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 14:32:56.178039
- Title: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
- Title(参考訳): LLM応用におけるプロンプトインジェクション攻撃と防御
- Authors: Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong
- Abstract要約: 本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。
我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。
また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
- 参考スコア(独自算出の注目度): 63.91918057570824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as the backend for a
variety of real-world applications called LLM-Integrated Applications. Multiple
recent works showed that LLM-Integrated Applications are vulnerable to prompt
injection attacks, in which an attacker injects malicious instruction/data into
the input of those applications such that they produce results as the attacker
desires. However, existing works are limited to case studies. As a result, the
literature lacks a systematic understanding of prompt injection attacks and
their defenses. We aim to bridge the gap in this work. In particular, we
propose a general framework to formalize prompt injection attacks. Existing
attacks, which are discussed in research papers and blog posts, are special
cases in our framework. Our framework enables us to design a new attack by
combining existing attacks. Moreover, we also propose a framework to
systematize defenses against prompt injection attacks. Using our frameworks, we
conduct a systematic evaluation on prompt injection attacks and their defenses
with 10 LLMs and 7 tasks. We hope our frameworks can inspire future research in
this field. Our code is available at
https://github.com/liu00222/Open-Prompt-Injection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLM-Integrated Applicationsと呼ばれる様々な現実世界のアプリケーションのバックエンドとして、ますます多くデプロイされている。
llmが組み込んだアプリケーションは、攻撃者がアプリケーション入力に悪意のある命令/データを注入し、攻撃者が欲しがる結果を生み出すという、プロンプトインジェクション攻撃に対して脆弱である。
ただし、現存する作品はケーススタディに限られている。
その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。
私たちはこの仕事のギャップを埋めることを目指している。
特に,プロンプトインジェクション攻撃を形式化する汎用フレームワークを提案する。
研究論文やブログ投稿で論じられている既存の攻撃は、我々のフレームワークで特別なケースである。
我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。
また,迅速なインジェクション攻撃に対する防御を体系化する枠組みも提案する。
当社のフレームワークを用いて,10のllmと7つのタスクを用いて,迅速なインジェクション攻撃とその防御に関する体系的な評価を行う。
私たちのフレームワークがこの分野で将来の研究を刺激できることを期待しています。
私たちのコードはhttps://github.com/liu00222/open-prompt-injectionで利用可能です。
関連論文リスト
- An Early Categorization of Prompt Injection Attacks on Large Language
Models [0.8875650122536799]
大規模な言語モデルとAIチャットボットは、人工知能の民主化の最前線にある。
われわれは、ユーザーが新しいインジェクションと呼ばれる攻撃でモデルを誤用しようとする猫とマウスのゲームを目撃している。
本稿では、これらの突発的脅威の概要と、即発注射の分類について述べる。
論文 参考訳(メタデータ) (2024-01-31T19:52:00Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Prompt Injection attack against LLM-integrated Applications [37.86878788874201]
本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。
従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃手法であるHouYiを定式化した。
我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。
論文 参考訳(メタデータ) (2023-06-08T18:43:11Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。