論文の概要: Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration
- arxiv url: http://arxiv.org/abs/2605.01970v2
- Date: Tue, 05 May 2026 11:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.253221
- Title: Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration
- Title(参考訳): Trojan Hippo: データ抽出のための兵器メモリ
- Authors: Debeshee Das, Julien Piet, Darya Kaviani, Luca Beurer-Kellner, Florian Tramèr, David Wagner,
- Abstract要約: トロイジャン・ヒッポ(Trojan Hippo)は、より現実的な脅威モデルで機能する永続メモリ攻撃のクラスである。
基本的なセキュリティ原則から着想を得た4つのメモリシステム防御を評価し,攻撃成功率を大幅に低下させることを確認した。
この相当なセキュリティとユーティリティのトレードオフのため、防衛の効果的な実世界の展開は、依然としてオープンな課題である。
- 参考スコア(独自算出の注目度): 33.8989871605613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory systems enable otherwise-stateless LLM agents to persist user information across sessions, but also introduce a new attack surface. We characterize the Trojan Hippo attack, a class of persistent memory attacks that operates in a more realistic threat model than prior memory poisoning work: the attacker plants a dormant payload into an agent's long-term memory via a single untrusted tool call (e.g., a crafted email), which activates only when the user later discusses sensitive topics such as finance, health, or identity, and exfiltrates high-value personal data to the attacker. While anecdotal demonstrations of such attacks have appeared against deployed systems, no prior work systematically evaluates them across heterogeneous memory architectures and defenses. We introduce a dynamic evaluation framework comprising two components: (1) an OpenEvolve-based adaptive red-teaming benchmark that stress-tests defenses and memory backends against continuously refined attacks, and (2) the first capability-aware security/utility analysis for persistent memory systems, enabling principled reasoning about defense deployment across different usage profiles. Instantiated on an email assistant across four memory backends (explicit tool memory, agentic memory, RAG, and sliding-window context), Trojan Hippo achieves up to 85-100% ASR against current frontier models from OpenAI and Google, with planted memories successfully activating even after 100 benign sessions. We evaluate four memory-system defenses inspired by basic security principles, finding they substantially reduce attack success rates (to as low as 0-5%), though at utility costs that vary widely with task requirements. Because of this substantial security-utility tradeoff, the effective real-world deployment of defenses remains an open challenge, which our evaluation framework is specifically designed to address.
- Abstract(参考訳): メモリシステムは、他のステートレスなLLMエージェントがセッション間でユーザー情報を永続化できるだけでなく、新たなアタックサーフェスも導入できる。
攻撃者は、単一の信頼できないツールコール(例えば、工芸メール)を介して、エージェントの長期記憶に休息ペイロードを配置し、ユーザが後に金融、健康、アイデンティティなどの機密性の高いトピックを議論したときにのみ起動し、攻撃者に高価値な個人情報を流出させる。
このような攻撃の逸話的なデモンストレーションは、デプロイされたシステムに対して現れているが、以前の研究では、それらを異種メモリアーキテクチャやディフェンスで体系的に評価することはなかった。
本研究では,(1)OpenEvolveをベースとした適応型レッドチームベンチマークにより,防御とメモリバックエンドを連続的に強化した攻撃に対してストレステストし,(2)永続メモリシステムに対する最初の能力認識型セキュリティ・ユーティリティ分析を行うことにより,防衛配置に関する原則的推論を可能にする,2つのコンポーネントからなる動的評価フレームワークを提案する。
4つのメモリバックエンド(ツールメモリ、エージェントメモリ、RAG、スライドウィンドウコンテキスト)にわたるEメールアシスタントを基盤として、Trojan Hippoは、OpenAIとGoogleの現在のフロンティアモデルに対して最大85-100%のASRを達成した。
基本的なセキュリティ原則にインスパイアされた4つのメモリシステム防御を評価し,攻撃成功率(0-5%まで)を著しく低減するが,タスク要求によって大きく異なるユーティリティコストで評価する。
このような大規模なセキュリティとユーティリティのトレードオフのため、防衛の効果的な実世界の展開は依然としてオープンな課題であり、我々の評価フレームワークは特に対処するように設計されています。
関連論文リスト
- Adaptive Defense Orchestration for RAG: A Sentinel-Strategist Architecture against Multi-Vector Attacks [0.0]
検索強化世代システムは、医療や法律などの機密性の高い領域にますます展開されている。
この機能は、メンバシップ推論、データ中毒、意図しないコンテンツのリークなど、重大なセキュリティリスクをもたらす。
本稿では,リスク分析と防衛選択のためのコンテキスト認識フレームワークであるSentinel-Strategistアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-22T11:17:10Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - Memory Poisoning Attack and Defense on Memory Based LLM-Agents [3.7127635602605014]
永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
論文 参考訳(メタデータ) (2026-01-09T03:26:10Z) - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Memory Under Siege: A Comprehensive Survey of Side-Channel Attacks on Memory [0.210674772139335]
メモリに対するサイドチャネル攻撃(SCAM)は、メモリサブシステムから意図しないデータ漏洩を利用して機密情報を推測する。
本研究の目的は、SCAMを検証し、様々な攻撃手法を分類し、既存の防御機構を評価することである。
論文 参考訳(メタデータ) (2025-05-08T02:16:08Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。