Fugu-MT 論文翻訳(概要): Context manipulation attacks : Web agents are susceptible to corrupted memory

論文の概要: Context manipulation attacks : Web agents are susceptible to corrupted memory

arxiv url: http://arxiv.org/abs/2506.17318v1
Date: Wed, 18 Jun 2025 14:29:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.344224
Title: Context manipulation attacks : Web agents are susceptible to corrupted memory
Title（参考訳）: コンテキスト操作攻撃 : Webエージェントは劣化した記憶に影響を受けやすい
Authors: Atharv Singh Patlan, Ashwin Hebbar, Pramod Viswanath, Prateek Mittal,
Abstract要約: Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
参考スコア（独自算出の注目度）: 37.66661108936654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous web navigation agents, which translate natural language instructions into sequences of browser actions, are increasingly deployed for complex tasks across e-commerce, information retrieval, and content discovery. Due to the stateless nature of large language models (LLMs), these agents rely heavily on external memory systems to maintain context across interactions. Unlike centralized systems where context is securely stored server-side, agent memory is often managed client-side or by third-party applications, creating significant security vulnerabilities. This was recently exploited to attack production systems. We introduce and formalize "plan injection," a novel context manipulation attack that corrupts these agents' internal task representations by targeting this vulnerable context. Through systematic evaluation of two popular web agents, Browser-use and Agent-E, we show that plan injections bypass robust prompt injection defenses, achieving up to 3x higher attack success rates than comparable prompt-based attacks. Furthermore, "context-chained injections," which craft logical bridges between legitimate user goals and attacker objectives, lead to a 17.7% increase in success rate for privacy exfiltration tasks. Our findings highlight that secure memory handling must be a first-class concern in agentic systems.
Abstract（参考訳）: 自然言語命令をブラウザアクションのシーケンスに変換する自動Webナビゲーションエージェントは、電子商取引、情報検索、コンテンツ発見といった複雑なタスクのために、ますます多くデプロイされている。大規模言語モデル(LLM)のステートレスな性質のため、これらのエージェントは相互作用間のコンテキストを維持するために外部メモリシステムに大きく依存する。コンテキストがセキュアにサーバサイドに保存される集中型システムとは異なり、エージェントメモリはクライアントサイドやサードパーティアプリケーションによって管理されることが多く、重大なセキュリティ上の脆弱性が生じる。これは最近、生産システムを攻撃するために利用された。この脆弱なコンテキストをターゲットとして,これらのエージェントの内部タスク表現を破損させる新しいコンテキスト操作攻撃である"プランインジェクション"を導入,形式化する。 Browser-use と Agent-E の2つの一般的な Web エージェントを体系的に評価することにより,プランインジェクションがロバストなインジェクション防御を回避し,攻撃成功率を同等のインジェクションベース攻撃よりも最大3倍に向上することを示す。さらに、正当なユーザ目標と攻撃目標の間に論理的ブリッジを構築する"context-chained Injections"は、プライバシ流出タスクの成功率を17.7%向上させる。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。

関連論文リスト

OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery [19.989518524625954]
Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するためのステップである。敵の環境注入攻撃に関する既存の研究は、しばしば非現実的な仮定に依存している。本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
論文参考訳（メタデータ） (2025-05-27T17:59:05Z)
The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-05-19T13:10:29Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。提案手法は既存のインジェクション攻撃よりも優れており,攻撃成功率が少なくとも26.4%向上している。
論文参考訳（メタデータ） (2025-04-19T16:28:03Z)
AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文参考訳（メタデータ） (2024-10-22T20:18:26Z)
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文参考訳（メタデータ） (2024-07-17T17:59:47Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。