論文の概要: PromptLocate: Localizing Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2510.12252v2
- Date: Fri, 17 Oct 2025 02:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 11:39:14.499857
- Title: PromptLocate: Localizing Prompt Injection Attacks
- Title(参考訳): PromptLocate: Promptインジェクションアタックのローカライズ
- Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong,
- Abstract要約: 汚染データ内で注入されたプロンプトをローカライズすることは、攻撃後の法医学的分析とデータ回復に不可欠である。
Promptは、既存の8つの攻撃と8つのアダプティブアタックにインジェクトされたプロンプトを正確にローカライズする。
- 参考スコア(独自算出の注目度): 22.1443503681797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks deceive a large language model into completing an attacker-specified task instead of its intended task by contaminating its input data with an injected prompt, which consists of injected instruction(s) and data. Localizing the injected prompt within contaminated data is crucial for post-attack forensic analysis and data recovery. Despite its growing importance, prompt injection localization remains largely unexplored. In this work, we bridge this gap by proposing PromptLocate, the first method for localizing injected prompts. PromptLocate comprises three steps: (1) splitting the contaminated data into semantically coherent segments, (2) identifying segments contaminated by injected instructions, and (3) pinpointing segments contaminated by injected data. We show PromptLocate accurately localizes injected prompts across eight existing and eight adaptive attacks.
- Abstract(参考訳): プロンプトインジェクション攻撃は、大規模な言語モデルを騙して、意図したタスクではなく、インジェクションされたインジェクションとデータからなるインジェクションプロンプトで入力データを汚染することで、攻撃者が特定したタスクを完了させる。
汚染データ内で注入されたプロンプトをローカライズすることは、攻撃後の法医学的分析とデータ回復に不可欠である。
その重要性は増しているが、インジェクションの局所化は未解明のままである。
本研究では、インジェクションされたプロンプトをローカライズする最初の方法であるPromptLocateを提案することで、このギャップを埋める。
PromptLocateは、(1) 汚染されたデータを意味的にコヒーレントなセグメントに分割し、(2) 注入された命令で汚染されたセグメントを識別し、(3) 注入されたデータで汚染されたピンポインティングセグメントを識別する。
PromptLocateは、既存の8つの攻撃と8つのアダプティブアタックに対して、インジェクションされたプロンプトを正確にローカライズする。
関連論文リスト
- WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents [45.87204751555924]
プロンプトインジェクション攻撃は、Webページのコンテンツを操作して、Webエージェントがユーザの意図したタスクではなく、攻撃者が指定したタスクを実行するようにする。
このような攻撃を検知し、局所化する既存の方法は、限られた有効性を実現する。
WebSentinel は,Web ページにおけるインジェクション攻撃の検出と局所化のための2段階のアプローチである。
論文 参考訳(メタデータ) (2026-02-03T17:55:04Z) - PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features [33.95073302161128]
既存のプロンプトインジェクション検出法は、しばしば準最適性能および/または高い計算オーバーヘッドを持つ。
本稿では,有効かつ効率的に検出できるPIShieldを提案する。
PIShieldは高効率かつ効率的であり,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-15T18:34:49Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Can Indirect Prompt Injection Attacks Be Detected and Removed? [94.67980597764245]
間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文 参考訳(メタデータ) (2025-02-23T14:02:16Z) - Maatphor: Automated Variant Analysis for Prompt Injection Attacks [7.93367270029538]
現在のプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである。
本稿では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
論文 参考訳(メタデータ) (2023-12-12T14:22:20Z) - DICE: Data-Efficient Clinical Event Extraction with Generative Models [93.49354508621232]
臨床領域のイベント抽出は、未調査の研究領域である。
臨床イベント抽出のための堅牢でデータ効率の良い生成モデルであるDICEを紹介する。
臨床およびニュース領域イベント抽出におけるDICEの最先端性能について実験を行った。
論文 参考訳(メタデータ) (2022-08-16T23:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。