論文の概要: PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance
- arxiv url: http://arxiv.org/abs/2508.20890v2
- Date: Tue, 16 Sep 2025 01:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.916661
- Title: PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance
- Title(参考訳): PromptSleuth:Semantic Intent Invarianceによるプロンプト注入の検出
- Authors: Mengxiao Wang, Yuxuan Zhang, Guofei Gu,
- Abstract要約: 大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
- 参考スコア(独自算出の注目度): 10.105673138616483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into real-world applications, from virtual assistants to autonomous agents. However, their flexibility also introduces new attack vectors-particularly Prompt Injection (PI), where adversaries manipulate model behavior through crafted inputs. As attackers continuously evolve with paraphrased, obfuscated, and even multi-task injection strategies, existing benchmarks are no longer sufficient to capture the full spectrum of emerging threats. To address this gap, we construct a new benchmark that systematically extends prior efforts. Our benchmark subsumes the two widely-used existing ones while introducing new manipulation techniques and multi-task scenarios, thereby providing a more comprehensive evaluation setting. We find that existing defenses, though effective on their original benchmarks, show clear weaknesses under our benchmark, underscoring the need for more robust solutions. Our key insight is that while attack forms may vary, the adversary's intent-injecting an unauthorized task-remains invariant. Building on this observation, we propose PromptSleuth, a semantic-oriented defense framework that detects prompt injection by reasoning over task-level intent rather than surface features. Evaluated across state-of-the-art benchmarks, PromptSleuth consistently outperforms existing defense while maintaining comparable runtime and cost efficiency. These results demonstrate that intent-based semantic reasoning offers a robust, efficient, and generalizable strategy for defending LLMs against evolving prompt injection threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
しかし、その柔軟性は新たな攻撃ベクトル、特にプロンプト・インジェクション(PI)を導入し、敵は工芸的な入力を通じてモデルの振る舞いを操作できる。
攻撃者はパラフレーズ、難読化、マルチタスクのインジェクション戦略で継続的に進化するので、既存のベンチマークは出現する脅威の全スペクトルを捉えるのに十分ではない。
このギャップに対処するため、我々は事前の取り組みを体系的に拡張する新しいベンチマークを構築した。
本ベンチマークでは,新しい操作手法とマルチタスクシナリオを導入し,より包括的な評価設定を提供するとともに,既存の2つの手法を仮定する。
既存の防衛策は、元のベンチマークでは有効だが、我々のベンチマークでは明らかな弱点が示され、より堅牢なソリューションの必要性が強調されている。
我々の重要な洞察は、攻撃形態は様々であるが、敵の意図的インジェクションが無許可のタスク残基を不変にすることである。
この観測に基づいて,表面特徴よりもタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークであるPromptSleuthを提案する。
最先端のベンチマークで評価され、PromptSleuthは、同等のランタイムとコスト効率を維持しながら、既存のディフェンスを一貫して上回っている。
これらの結果は、意図に基づく意味推論が、進化するインジェクションの脅威からLLMを守るための堅牢で効率的で一般化可能な戦略を提供することを示している。
関連論文リスト
- TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - CAPTURE: Context-Aware Prompt Injection Testing and Robustness Enhancement [0.34530027457862006]
攻撃検出と過防衛傾向の両方を評価する新しい文脈認識型ベンチマークであるCAPTUREを紹介する。
実験の結果,現行のプロンプトインジェクションガードレールモデルでは,敵のケースでは高い偽陰性,良性シナリオでは過剰な偽陽性に悩まされていることが明らかとなった。
この新しいモデルでは、コンテキスト認識データセットの偽陰性率と偽陽性率の両方を劇的に削減します。
論文 参考訳(メタデータ) (2025-05-18T11:14:14Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。