論文の概要: The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis
- arxiv url: http://arxiv.org/abs/2602.10453v1
- Date: Wed, 11 Feb 2026 02:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.407639
- Title: The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis
- Title(参考訳): LLMエージェントにおけるプロンプト注入脅威の景観:分類学から分析まで
- Authors: Peiran Wang, Xinfeng Li, Chong Xiang, Jinghuai Zhang, Ying Li, Lixia Zhang, Xiaofeng Wang, Yuan Tian,
- Abstract要約: The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。
我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。
我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
- 参考スコア(独自算出の注目度): 24.51410516475904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Large Language Models (LLMs) has resulted in a paradigm shift towards autonomous agents, necessitating robust security against Prompt Injection (PI) vulnerabilities where untrusted inputs hijack agent behaviors. This SoK presents a comprehensive overview of the PI landscape, covering attacks, defenses, and their evaluation practices. Through a systematic literature review and quantitative analysis, we establish taxonomies that categorize PI attacks by payload generation strategies (heuristic vs. optimization) and defenses by intervention stages (text, model, and execution levels). Our analysis reveals a key limitation shared by many existing defenses and benchmarks: they largely overlook context-dependent tasks, in which agents are authorized to rely on runtime environmental observations to determine actions. To address this gap, we introduce AgentPI, a new benchmark designed to systematically evaluate agent behavior under context-dependent interaction settings. Using AgentPI, we empirically evaluate representative defenses and show that no single approach can simultaneously achieve high trustworthiness, high utility, and low latency. Moreover, we show that many defenses appear effective under existing benchmarks by suppressing contextual inputs, yet fail to generalize to realistic agent settings where context-dependent reasoning is essential. This SoK distills key takeaways and open research problems, offering structured guidance for future research and practical deployment of secure LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLMs)の進化は、自律エージェントへのパラダイムシフトをもたらし、信頼できない入力がハイジャックエージェントの動作を行う場合には、プロンプトインジェクション(PI)脆弱性に対する堅牢なセキュリティを必要とする。
このSoKは、攻撃、防衛、およびそれらの評価の実践を網羅し、PIランドスケープの包括的概要を提示する。
系統的な文献レビューと定量的分析を通じて、ペイロード生成戦略(ヒューリスティック対最適化)によるPI攻撃と介入段階(テキスト、モデル、実行レベル)による防御を分類する分類法を確立した。
エージェントが実行環境の観察に頼って行動を決定することを許可される状況に依存したタスクを、主に見落としている。
このギャップに対処するために,コンテキスト依存のインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを導入する。
AgentPIを用いて,代表防御を実証的に評価し,高い信頼性,高ユーティリティ,低レイテンシを同時に達成できるアプローチは存在しないことを示す。
さらに,文脈依存推論が不可欠である現実的なエージェント設定への一般化に失敗しながら,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
このSoKは、キーテイクアウトとオープンな研究問題を抽出し、将来の研究のための構造化されたガイダンスと安全なLLMエージェントの実用的展開を提供する。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - The Evolution of Agentic AI in Cybersecurity: From Single LLM Reasoners to Multi-Agent Systems and Autonomous Pipelines [0.0]
サイバーセキュリティはエージェントAIのアーリーアダプターの1つになった。
この調査は、サイバーセキュリティにおけるエージェントAIの5世代分類を提示する。
論文 参考訳(メタデータ) (2025-12-07T05:10:16Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs [1.036334370262262]
本稿では,エージェント実行を粒度のアクションとコンポーネントグラフに分解する可観測性に基づく評価フレームワークであるAgenSeerを紹介する。
モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いを示す。
エージェントレベルの評価は、従来の評価には見えないエージェント固有のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-09-05T04:36:17Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。