論文の概要: Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.14197v1
- Date: Thu, 21 Dec 2023 01:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:22:31.640654
- Title: Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models
- Title(参考訳): 大規模言語モデルにおける間接的プロンプトインジェクション攻撃のベンチマークと防御
- Authors: Jingwei Yi, Yueqi Xie, Bin Zhu, Keegan Hines, Emre Kiciman, Guangzhong
Sun, Xing Xie, Fangzhao Wu
- Abstract要約: 本稿では,各種大規模言語モデルの間接的インジェクション攻撃に対するロバスト性を評価するため,最初のベンチマークであるBIPIAを紹介する。
そこで本研究では,4つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御手法を提案し,LCMが命令と外部コンテンツとを区別できるようにする。
- 参考スコア(独自算出の注目度): 79.96070930626917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent remarkable advancements in large language models (LLMs) have led to
their widespread adoption in various applications. A key feature of these
applications is the combination of LLMs with external content, where user
instructions and third-party content are combined to create prompts for LLM
processing. These applications, however, are vulnerable to indirect prompt
injection attacks, where malicious instructions embedded within external
content compromise LLM's output, causing their responses to deviate from user
expectations. Despite the discovery of this security issue, no comprehensive
analysis of indirect prompt injection attacks on different LLMs is available
due to the lack of a benchmark. Furthermore, no effective defense has been
proposed.
In this work, we introduce the first benchmark, BIPIA, to measure the
robustness of various LLMs and defenses against indirect prompt injection
attacks. Our experiments reveal that LLMs with greater capabilities exhibit
more vulnerable to indirect prompt injection attacks for text tasks, resulting
in a higher ASR. We hypothesize that indirect prompt injection attacks are
mainly due to the LLMs' inability to distinguish between instructions and
external content. Based on this conjecture, we propose four black-box methods
based on prompt learning and a white-box defense methods based on fine-tuning
with adversarial training to enable LLMs to distinguish between instructions
and external content and ignore instructions in the external content. Our
experimental results show that our black-box defense methods can effectively
reduce ASR but cannot completely thwart indirect prompt injection attacks,
while our white-box defense method can reduce ASR to nearly zero with little
adverse impact on the LLM's performance on general tasks. We hope that our
benchmark and defenses can inspire future work in this important area.
- Abstract(参考訳): 近年の大規模言語モデル(llm)の発展は、様々なアプリケーションで広く採用されている。
これらのアプリケーションの重要な特徴は、LCMと外部コンテンツの組み合わせであり、ユーザ命令とサードパーティコンテンツを組み合わせてLCM処理のプロンプトを作成する。
しかしながら、これらのアプリケーションは間接的なインジェクション攻撃に対して脆弱であり、外部コンテンツに埋め込まれた悪意のある命令がLCMの出力を損なうため、ユーザからの期待から応答が逸脱する。
このセキュリティ問題の発見にもかかわらず、ベンチマークの欠如により、異なるllmに対する間接的なプロンプトインジェクション攻撃の包括的な分析は不可能である。
また、効果的な防御は提案されていない。
本研究では,各種LSMのロバスト性および間接的インジェクション攻撃に対する防御性を評価するための最初のベンチマークであるBIPIAを紹介する。
実験の結果,LLMはテキストタスクに対する間接的インジェクション攻撃に対してより脆弱であり,より高いASRが得られることがわかった。
間接的インジェクション攻撃は、主にLCMが命令と外部コンテンツを区別できないためである、という仮説を立てる。
この予想に基づき,プロンプト学習に基づく4つのブラックボックス法と,敵意トレーニングによる微調整に基づくホワイトボックス防御法を提案し,llmが命令と外部コンテンツの区別と外部コンテンツの命令の無視を可能にした。
実験結果から,我々のブラックボックス防御法はASRを効果的に抑制できるが,間接的インジェクション攻撃を完全に抑制することは不可能であり,一方,ホワイトボックス防御法は一般タスクにおけるLSMの性能にほとんど悪影響を及ぼさず,ASRをほぼゼロに抑えることができることがわかった。
当社のベンチマークと防衛が、この重要な領域における将来の作業に刺激を与えてくれることを期待しています。
関連論文リスト
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。