論文の概要: PromptLocate: Localizing Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2510.12252v1
- Date: Tue, 14 Oct 2025 08:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.23564
- Title: PromptLocate: Localizing Prompt Injection Attacks
- Title(参考訳): PromptLocate: Promptインジェクションアタックのローカライズ
- Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong,
- Abstract要約: 汚染データ内で注入されたプロンプトをローカライズすることは、攻撃後の法医学的分析とデータ回復に不可欠である。
Promptは、既存の8つの攻撃と8つのアダプティブアタックにインジェクトされたプロンプトを正確にローカライズする。
- 参考スコア(独自算出の注目度): 22.1443503681797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks deceive a large language model into completing an attacker-specified task instead of its intended task by contaminating its input data with an injected prompt, which consists of injected instruction(s) and data. Localizing the injected prompt within contaminated data is crucial for post-attack forensic analysis and data recovery. Despite its growing importance, prompt injection localization remains largely unexplored. In this work, we bridge this gap by proposing PromptLocate, the first method for localizing injected prompts. PromptLocate comprises three steps: (1) splitting the contaminated data into semantically coherent segments, (2) identifying segments contaminated by injected instructions, and (3) pinpointing segments contaminated by injected data. We show PromptLocate accurately localizes injected prompts across eight existing and eight adaptive attacks.
- Abstract(参考訳): プロンプトインジェクション攻撃は、大規模な言語モデルを騙して、意図したタスクではなく、インジェクションされたインジェクションとデータからなるインジェクションプロンプトで入力データを汚染することで、攻撃者が特定したタスクを完了させる。
汚染データ内で注入されたプロンプトをローカライズすることは、攻撃後の法医学的分析とデータ回復に不可欠である。
その重要性は増しているが、インジェクションの局所化は未解明のままである。
本研究では、インジェクションされたプロンプトをローカライズする最初の方法であるPromptLocateを提案することで、このギャップを埋める。
PromptLocateは、(1) 汚染されたデータを意味的にコヒーレントなセグメントに分割し、(2) 注入された命令で汚染されたセグメントを識別し、(3) 注入されたデータで汚染されたピンポインティングセグメントを識別する。
PromptLocateは、既存の8つの攻撃と8つのアダプティブアタックに対して、インジェクションされたプロンプトを正確にローカライズする。
関連論文リスト
- DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Can Indirect Prompt Injection Attacks Be Detected and Removed? [94.67980597764245]
間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文 参考訳(メタデータ) (2025-02-23T14:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。