論文の概要: Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.14197v1
- Date: Thu, 21 Dec 2023 01:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:22:31.640654
- Title: Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models
- Title(参考訳): 大規模言語モデルにおける間接的プロンプトインジェクション攻撃のベンチマークと防御
- Authors: Jingwei Yi, Yueqi Xie, Bin Zhu, Keegan Hines, Emre Kiciman, Guangzhong
Sun, Xing Xie, Fangzhao Wu
- Abstract要約: 本稿では,各種大規模言語モデルの間接的インジェクション攻撃に対するロバスト性を評価するため,最初のベンチマークであるBIPIAを紹介する。
そこで本研究では,4つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御手法を提案し,LCMが命令と外部コンテンツとを区別できるようにする。
- 参考スコア(独自算出の注目度): 79.96070930626917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent remarkable advancements in large language models (LLMs) have led to
their widespread adoption in various applications. A key feature of these
applications is the combination of LLMs with external content, where user
instructions and third-party content are combined to create prompts for LLM
processing. These applications, however, are vulnerable to indirect prompt
injection attacks, where malicious instructions embedded within external
content compromise LLM's output, causing their responses to deviate from user
expectations. Despite the discovery of this security issue, no comprehensive
analysis of indirect prompt injection attacks on different LLMs is available
due to the lack of a benchmark. Furthermore, no effective defense has been
proposed.
In this work, we introduce the first benchmark, BIPIA, to measure the
robustness of various LLMs and defenses against indirect prompt injection
attacks. Our experiments reveal that LLMs with greater capabilities exhibit
more vulnerable to indirect prompt injection attacks for text tasks, resulting
in a higher ASR. We hypothesize that indirect prompt injection attacks are
mainly due to the LLMs' inability to distinguish between instructions and
external content. Based on this conjecture, we propose four black-box methods
based on prompt learning and a white-box defense methods based on fine-tuning
with adversarial training to enable LLMs to distinguish between instructions
and external content and ignore instructions in the external content. Our
experimental results show that our black-box defense methods can effectively
reduce ASR but cannot completely thwart indirect prompt injection attacks,
while our white-box defense method can reduce ASR to nearly zero with little
adverse impact on the LLM's performance on general tasks. We hope that our
benchmark and defenses can inspire future work in this important area.
- Abstract(参考訳): 近年の大規模言語モデル(llm)の発展は、様々なアプリケーションで広く採用されている。
これらのアプリケーションの重要な特徴は、LCMと外部コンテンツの組み合わせであり、ユーザ命令とサードパーティコンテンツを組み合わせてLCM処理のプロンプトを作成する。
しかしながら、これらのアプリケーションは間接的なインジェクション攻撃に対して脆弱であり、外部コンテンツに埋め込まれた悪意のある命令がLCMの出力を損なうため、ユーザからの期待から応答が逸脱する。
このセキュリティ問題の発見にもかかわらず、ベンチマークの欠如により、異なるllmに対する間接的なプロンプトインジェクション攻撃の包括的な分析は不可能である。
また、効果的な防御は提案されていない。
本研究では,各種LSMのロバスト性および間接的インジェクション攻撃に対する防御性を評価するための最初のベンチマークであるBIPIAを紹介する。
実験の結果,LLMはテキストタスクに対する間接的インジェクション攻撃に対してより脆弱であり,より高いASRが得られることがわかった。
間接的インジェクション攻撃は、主にLCMが命令と外部コンテンツを区別できないためである、という仮説を立てる。
この予想に基づき,プロンプト学習に基づく4つのブラックボックス法と,敵意トレーニングによる微調整に基づくホワイトボックス防御法を提案し,llmが命令と外部コンテンツの区別と外部コンテンツの命令の無視を可能にした。
実験結果から,我々のブラックボックス防御法はASRを効果的に抑制できるが,間接的インジェクション攻撃を完全に抑制することは不可能であり,一方,ホワイトボックス防御法は一般タスクにおけるLSMの性能にほとんど悪影響を及ぼさず,ASRをほぼゼロに抑えることができることがわかった。
当社のベンチマークと防衛が、この重要な領域における将来の作業に刺激を与えてくれることを期待しています。
関連論文リスト
- Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - Hijacking Large Language Models via Adversarial In-Context Learning [9.161967285486051]
本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Unveiling Vulnerabilities in Interpretable Deep Learning Systems with
Query-Efficient Black-box Attacks [16.13790238416691]
解釈可能なディープラーニングシステム(IDLS)は、システムの透明性と説明性を高めるために設計されている。
本稿では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。
論文 参考訳(メタデータ) (2023-07-21T21:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。