論文の概要: Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs
- arxiv url: http://arxiv.org/abs/2604.03870v1
- Date: Sat, 04 Apr 2026 21:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.807077
- Title: Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs
- Title(参考訳): エージェントLLMで間接注射の脆弱性が発見される
- Authors: Wenhui Zhu, Xuanzhao Dong, Xiwen Chen, Rui Cai, Peijie Qiu, Zhipeng Wang, Oana Frunza, Shao Tang, Jindong Gu, Yalin Wang,
- Abstract要約: システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
- 参考スコア(独自算出の注目度): 32.38053469964495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid deployment of open-source frameworks has significantly advanced the development of modern multi-agent systems. However, expanded action spaces, including uncontrolled privilege exposure and hidden inter-system interactions, pose severe security challenges. Specifically, Indirect Prompt Injections (IPI), which conceal malicious instructions within third-party content, can trigger unauthorized actions such as data exfiltration during normal operations. While current security evaluations predominantly rely on isolated single-turn benchmarks, the systemic vulnerabilities of these agents within complex dynamic environments remain critically underexplored. To bridge this gap, we systematically evaluate six defense strategies against four sophisticated IPI attack vectors across nine LLM backbones. Crucially, we conduct our evaluation entirely within dynamic multi-step tool-calling environments to capture the true attack surface of modern autonomous agents. Moving beyond binary success rates, our multidimensional analysis reveals a pronounced fragility. Advanced injections successfully bypass nearly all baseline defenses, and some surface-level mitigations even produce counterproductive side effects. Furthermore, while agents execute malicious instructions almost instantaneously, their internal states exhibit abnormally high decision entropy. Motivated by this latent hesitation, we investigate Representation Engineering (RepE) as a robust detection strategy. By extracting hidden states at the tool-input position, we revealed that the RepE-based circuit breaker successfully identifies and intercepts unauthorized actions before the agent commits to them, achieving high detection accuracy across diverse LLM backbones. This study exposes the limitations of current IPI defenses and provides a highly practical paradigm for building resilient multi-agent architectures.
- Abstract(参考訳): オープンソースフレームワークの迅速な展開は、現代のマルチエージェントシステムの開発を著しく前進させてきた。
しかし、制御不能な特権暴露やシステム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
Indirect Prompt Injections (IPI)は、サードパーティのコンテンツ内で悪意のある命令を隠蔽し、通常の操作中にデータ消去などの不正なアクションをトリガーする。
現在のセキュリティ評価は孤立したシングルターンベンチマークに大きく依存しているが、複雑な動的環境におけるこれらのエージェントのシステム的脆弱性はいまだに過小評価されている。
このギャップを埋めるために,9個のLSMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を体系的に評価した。
重要なことに、我々は、現代の自律エージェントの真の攻撃面を捉えるために、動的多段階ツールコール環境内で完全に評価を行う。
2値の成功率を超えて、我々の多次元分析は明らかな脆弱さを明らかにします。
アドバンストインジェクションは、ほぼすべてのベースライン防御を回避し、一部の表面レベルの緩和は、反生産的な副作用も生み出す。
さらに、エージェントはほぼ瞬時に悪意のある命令を実行する一方で、内部状態は異常に高い決定エントロピーを示す。
本稿では,この潜伏を動機とした表現工学(RepE)をロバストな検出戦略として検討する。
ツール入力位置の隠蔽状態を抽出することにより、RepEベースの回路ブレーカが、エージェントがコミットする前に無許可動作を識別し、インターセプトし、多様なLDMバックボーン間で高い検出精度を達成することを明らかにした。
本研究は、現在のITI防御の限界を明らかにし、レジリエントなマルチエージェントアーキテクチャを構築するための非常に実践的なパラダイムを提供する。
関連論文リスト
- The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis [24.51410516475904]
The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。
我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。
我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:47:10Z) - AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System [44.50700894734539]
AgentDynは60の挑戦的なオープンエンドタスクと560のインジェクションテストケースを特徴とするベンチマークである。
以前の静的ベンチマークとは異なり、AgentDynは動的プランニングを必要とし、有用なサードパーティの命令を組み込む。
最先端の10つの防衛に関する我々の評価は、既存の防衛のほとんどすべてが十分に安全でないか、重大な過防衛に悩まされていることを示唆している。
論文 参考訳(メタデータ) (2026-02-03T05:20:42Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。