論文の概要: Poison Once, Exploit Forever: Environment-Injected Memory Poisoning Attacks on Web Agents
- arxiv url: http://arxiv.org/abs/2604.02623v2
- Date: Tue, 07 Apr 2026 14:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 15:04:55.538949
- Title: Poison Once, Exploit Forever: Environment-Injected Memory Poisoning Attacks on Web Agents
- Title(参考訳): Poison Once, Exploit Forever: 環境に注入されたメモリによるWebエージェントの攻撃
- Authors: Wei Zou, Mingwen Dong, Miguel Romero Calvo, Shuaichen Chang, Jiang Guo, Dongkyu Lee, Xing Niu, Xiaofei Ma, Yanjun Qi, Jiarong Jiang,
- Abstract要約: メモリはLLMベースのWebエージェントをパーソナライズし、強力で、利用しやすいものにする。
環境注入型トラジェクトリベースエージェントメモリポジショニング(eTAMP)について紹介する。
eTAMPは、直接メモリアクセスを必要とせずにクロスセッション、クロスサイト妥協を実現する最初の攻撃である。
- 参考スコア(独自算出の注目度): 25.24487522342174
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memory makes LLM-based web agents personalized, powerful, yet exploitable. By storing past interactions to personalize future tasks, agents inadvertently create a persistent attack surface that spans websites and sessions. While existing security research on memory assumes attackers can directly inject into memory storage or exploit shared memory across users, we present a more realistic threat model: contamination through environmental observation alone. We introduce Environment-injected Trajectory-based Agent Memory Poisoning (eTAMP), the first attack to achieve cross-session, cross-site compromise without requiring direct memory access. A single contaminated observation (e.g., viewing a manipulated product page) silently poisons an agent's memory and activates during future tasks on different websites, bypassing permission-based defenses. Our experiments on (Visual)WebArena reveal two key findings. First, eTAMP achieves substantial attack success rates: up to 32.5% on GPT-5-mini, 23.4% on GPT-5.2, and 19.5% on GPT-OSS-120B. Second, we discover Frustration Exploitation: agents under environmental stress become dramatically more susceptible, with ASR increasing up to 8 times when agents struggle with dropped clicks or garbled text. Notably, more capable models are not more secure. GPT-5.2 shows substantial vulnerability despite superior task performance. With the rise of AI browsers like OpenClaw, ChatGPT Atlas, and Perplexity Comet, our findings underscore the urgent need for defenses against environment-injected memory poisoning.
- Abstract(参考訳): メモリはLLMベースのウェブエージェントをパーソナライズし、強力で、利用しやすいものにする。
未来のタスクをパーソナライズするために過去のインタラクションを格納することで、エージェントは故意にWebサイトやセッションにまたがる永続的なアタックサーフェスを作成します。
メモリに関する既存のセキュリティ調査では、攻撃者が直接メモリストレージに注入したり、ユーザ間で共有メモリを利用することができると仮定しているが、より現実的な脅威モデルが提示されている。
直接メモリアクセスを必要とせずに、クロスセッションでクロスサイトな妥協を実現する最初の攻撃である、環境注入型トラジェクトリベースのエージェントメモリポジショニング(eTAMP)を導入する。
単一の汚染された観察(例:操作された製品ページを見る)は、エージェントのメモリを静かに汚染し、異なるウェブサイトで将来のタスク中にアクティベートし、パーミッションベースの防御を回避します。
Visual)WebArenaに関する我々の実験では、2つの重要な発見が明らかになった。
まず、eTAMPはGPT-5-miniで32.5%、GPT-5-2で23.4%、GPT-OSS-120Bで19.5%の攻撃成功率を達成した。
第二に、環境ストレス下でのエージェントは、クリックやガーブラートテキストに苦しむエージェントに対して、ASRは最大8倍まで増加する。
特に、より有能なモデルはより安全ではない。
GPT-5.2はタスク性能が優れているにもかかわらず重大な脆弱性を示す。
OpenClaw、ChatGPT Atlas、Perplexity CometといったAIブラウザの台頭により、我々の発見は環境に注入されたメモリ中毒に対する緊急の防御の必要性を浮き彫りにした。
関連論文リスト
- Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage [40.82238259404402]
敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
論文 参考訳(メタデータ) (2024-09-17T15:49:44Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。