論文の概要: Context manipulation attacks : Web agents are susceptible to corrupted memory
- arxiv url: http://arxiv.org/abs/2506.17318v1
- Date: Wed, 18 Jun 2025 14:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.344224
- Title: Context manipulation attacks : Web agents are susceptible to corrupted memory
- Title(参考訳): コンテキスト操作攻撃 : Webエージェントは劣化した記憶に影響を受けやすい
- Authors: Atharv Singh Patlan, Ashwin Hebbar, Pramod Viswanath, Prateek Mittal,
- Abstract要約: Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。
プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。
この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
- 参考スコア(独自算出の注目度): 37.66661108936654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous web navigation agents, which translate natural language instructions into sequences of browser actions, are increasingly deployed for complex tasks across e-commerce, information retrieval, and content discovery. Due to the stateless nature of large language models (LLMs), these agents rely heavily on external memory systems to maintain context across interactions. Unlike centralized systems where context is securely stored server-side, agent memory is often managed client-side or by third-party applications, creating significant security vulnerabilities. This was recently exploited to attack production systems. We introduce and formalize "plan injection," a novel context manipulation attack that corrupts these agents' internal task representations by targeting this vulnerable context. Through systematic evaluation of two popular web agents, Browser-use and Agent-E, we show that plan injections bypass robust prompt injection defenses, achieving up to 3x higher attack success rates than comparable prompt-based attacks. Furthermore, "context-chained injections," which craft logical bridges between legitimate user goals and attacker objectives, lead to a 17.7% increase in success rate for privacy exfiltration tasks. Our findings highlight that secure memory handling must be a first-class concern in agentic systems.
- Abstract(参考訳): 自然言語命令をブラウザアクションのシーケンスに変換する自動Webナビゲーションエージェントは、電子商取引、情報検索、コンテンツ発見といった複雑なタスクのために、ますます多くデプロイされている。
大規模言語モデル(LLM)のステートレスな性質のため、これらのエージェントは相互作用間のコンテキストを維持するために外部メモリシステムに大きく依存する。
コンテキストがセキュアにサーバサイドに保存される集中型システムとは異なり、エージェントメモリはクライアントサイドやサードパーティアプリケーションによって管理されることが多く、重大なセキュリティ上の脆弱性が生じる。
これは最近、生産システムを攻撃するために利用された。
この脆弱なコンテキストをターゲットとして,これらのエージェントの内部タスク表現を破損させる新しいコンテキスト操作攻撃である"プランインジェクション"を導入,形式化する。
Browser-use と Agent-E の2つの一般的な Web エージェントを体系的に評価することにより,プランインジェクションがロバストなインジェクション防御を回避し,攻撃成功率を同等のインジェクションベース攻撃よりも最大3倍に向上することを示す。
さらに、正当なユーザ目標と攻撃目標の間に論理的ブリッジを構築する"context-chained Injections"は、プライバシ流出タスクの成功率を17.7%向上させる。
この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
関連論文リスト
- The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
提案手法は既存のインジェクション攻撃よりも優れており,攻撃成功率が少なくとも26.4%向上している。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。