論文の概要: PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features
- arxiv url: http://arxiv.org/abs/2510.14005v1
- Date: Wed, 15 Oct 2025 18:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.584193
- Title: PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features
- Title(参考訳): PIShield:固有のLDM機能によるプロンプト注入攻撃の検出
- Authors: Wei Zou, Yupei Liu, Yanting Wang, Ying Chen, Neil Gong, Jinyuan Jia,
- Abstract要約: 既存のプロンプトインジェクション検出法は、しばしば準最適性能および/または高い計算オーバーヘッドを持つ。
本稿では,有効かつ効率的に検出できるPIShieldを提案する。
PIShieldは高効率かつ効率的であり,既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 33.95073302161128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-integrated applications are vulnerable to prompt injection attacks, where an attacker contaminates the input to inject malicious prompts, causing the LLM to follow the attacker's intent instead of the original user's. Existing prompt injection detection methods often have sub-optimal performance and/or high computational overhead. In this work, we propose PIShield, a detection method that is both effective and efficient. Our key observation is that the internal representation of the final token in a prompt-extracted from a specific layer of the LLM, which we term the injection-critical layer-captures distinguishing features between clean and contaminated prompts. Leveraging this insight, we train a simple linear classifier on these internal representations using a labeled set of clean and contaminated prompts. We compare PIShield against 11 baselines across 5 diverse benchmark datasets and 8 prompt injection attacks. The results demonstrate that PIShield is both highly effective and efficient, substantially outperforming existing methods. Additionally, we show that PIShield resists strong adaptive attacks.
- Abstract(参考訳): LLM統合されたアプリケーションは、攻撃者が入力を汚染して悪意のあるプロンプトを注入するインジェクション攻撃に弱いため、LLMは元のユーザではなく攻撃者の意図に従う。
既存のプロンプトインジェクション検出法は、しばしば準最適性能および/または高い計算オーバーヘッドを持つ。
本研究では,有効かつ効率的に検出できるPIShieldを提案する。
我々の重要な観察は、LLMの特定の層から抽出されたプロンプト内の最終トークンの内部表現が、クリーンプロンプトと汚染プロンプトの特徴を区別する射出クリティカル層キャプチャーであるということである。
この知見を活用することで、クリーンで汚染されたプロンプトのラベル付きセットを使用して、これらの内部表現上の単純な線形分類器を訓練する。
PIShieldを5つの多様なベンチマークデータセットと8つのインジェクションアタックの11のベースラインと比較する。
その結果,PIShieldは有効かつ効率的であり,既存の手法よりも優れていることがわかった。
さらに,PIShieldは強い適応攻撃に抵抗することを示した。
関連論文リスト
- Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Enhancing Prompt Injection Attacks to LLMs via Poisoning Alignment [35.344406718760574]
プロンプトインジェクション攻撃は、大規模言語モデルをインジェクションされたプロンプトに従ってアタッカー・チョーセンタスクを実行することを目的としている。
既存の攻撃は主にこれらのインジェクションを推論時に作成することに集中し、LSM自体を静的なターゲットとして扱う。
そこで本研究では,LSMのアライメントプロセスに毒を盛り,将来のインジェクション攻撃の成功を増幅する,より基本的な攻撃ベクトルを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。