Fugu-MT 論文翻訳(概要): Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models

論文の概要: Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models

arxiv url: http://arxiv.org/abs/2312.14197v1
Date: Thu, 21 Dec 2023 01:08:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 17:22:31.640654
Title: Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models
Title（参考訳）: 大規模言語モデルにおける間接的プロンプトインジェクション攻撃のベンチマークと防御
Authors: Jingwei Yi, Yueqi Xie, Bin Zhu, Keegan Hines, Emre Kiciman, Guangzhong Sun, Xing Xie, Fangzhao Wu
Abstract要約: 本稿では,各種大規模言語モデルの間接的インジェクション攻撃に対するロバスト性を評価するため,最初のベンチマークであるBIPIAを紹介する。そこで本研究では,4つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御手法を提案し,LCMが命令と外部コンテンツとを区別できるようにする。
参考スコア（独自算出の注目度）: 79.96070930626917
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent remarkable advancements in large language models (LLMs) have led to their widespread adoption in various applications. A key feature of these applications is the combination of LLMs with external content, where user instructions and third-party content are combined to create prompts for LLM processing. These applications, however, are vulnerable to indirect prompt injection attacks, where malicious instructions embedded within external content compromise LLM's output, causing their responses to deviate from user expectations. Despite the discovery of this security issue, no comprehensive analysis of indirect prompt injection attacks on different LLMs is available due to the lack of a benchmark. Furthermore, no effective defense has been proposed. In this work, we introduce the first benchmark, BIPIA, to measure the robustness of various LLMs and defenses against indirect prompt injection attacks. Our experiments reveal that LLMs with greater capabilities exhibit more vulnerable to indirect prompt injection attacks for text tasks, resulting in a higher ASR. We hypothesize that indirect prompt injection attacks are mainly due to the LLMs' inability to distinguish between instructions and external content. Based on this conjecture, we propose four black-box methods based on prompt learning and a white-box defense methods based on fine-tuning with adversarial training to enable LLMs to distinguish between instructions and external content and ignore instructions in the external content. Our experimental results show that our black-box defense methods can effectively reduce ASR but cannot completely thwart indirect prompt injection attacks, while our white-box defense method can reduce ASR to nearly zero with little adverse impact on the LLM's performance on general tasks. We hope that our benchmark and defenses can inspire future work in this important area.
Abstract（参考訳）: 近年の大規模言語モデル(llm)の発展は、様々なアプリケーションで広く採用されている。これらのアプリケーションの重要な特徴は、LCMと外部コンテンツの組み合わせであり、ユーザ命令とサードパーティコンテンツを組み合わせてLCM処理のプロンプトを作成する。しかしながら、これらのアプリケーションは間接的なインジェクション攻撃に対して脆弱であり、外部コンテンツに埋め込まれた悪意のある命令がLCMの出力を損なうため、ユーザからの期待から応答が逸脱する。このセキュリティ問題の発見にもかかわらず、ベンチマークの欠如により、異なるllmに対する間接的なプロンプトインジェクション攻撃の包括的な分析は不可能である。また、効果的な防御は提案されていない。本研究では,各種LSMのロバスト性および間接的インジェクション攻撃に対する防御性を評価するための最初のベンチマークであるBIPIAを紹介する。実験の結果,LLMはテキストタスクに対する間接的インジェクション攻撃に対してより脆弱であり,より高いASRが得られることがわかった。間接的インジェクション攻撃は、主にLCMが命令と外部コンテンツを区別できないためである、という仮説を立てる。この予想に基づき,プロンプト学習に基づく4つのブラックボックス法と,敵意トレーニングによる微調整に基づくホワイトボックス防御法を提案し,llmが命令と外部コンテンツの区別と外部コンテンツの命令の無視を可能にした。実験結果から,我々のブラックボックス防御法はASRを効果的に抑制できるが,間接的インジェクション攻撃を完全に抑制することは不可能であり,一方,ホワイトボックス防御法は一般タスクにおけるLSMの性能にほとんど悪影響を及ぼさず,ASRをほぼゼロに抑えることができることがわかった。当社のベンチマークと防衛が、この重要な領域における将来の作業に刺激を与えてくれることを期待しています。

関連論文リスト

Inducing Vulnerable Code Generation in LLM Coding Assistants [10.067898047221558]
本稿では,攻撃者が参照外部情報を利用して攻撃シーケンスを埋め込むHACKODEという現実世界の脅威を明らかにする。我々は攻撃のプロトタイプを設計し、潜在的に多様な入力に対して効果的な攻撃シーケンスを生成する。現実世界のアプリケーションでは、HACKODEは75.92%のASRを達成した。
論文参考訳（メタデータ） (2025-04-22T13:09:20Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
Automatic and Universal Prompt Injection Attacks against Large Language Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T23:46:20Z)
Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。 In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文参考訳（メタデータ） (2024-02-21T01:30:03Z)
Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文参考訳（メタデータ） (2023-02-11T15:57:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。