論文の概要: Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction
- arxiv url: http://arxiv.org/abs/2605.29960v1
- Date: Thu, 28 May 2026 14:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.375251
- Title: Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction
- Title(参考訳): ハイジャックエージェントの記憶:会話を通した安定したトロイの木馬攻撃
- Authors: Hongtao Wang, Se Yang, Yu Chen, Puzhuo Liu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、永続的で自律的なタスク実行をサポートするために、長期記憶を活用する傾向にある。
既存のメモリ中毒攻撃は、インジェクトされたコンテンツが直接メモリに格納され、選択的な抽出と書き換えの段階を見渡せると仮定する。
メカニスティック分析は、攻撃が埋め込み空間の異方性を悪用し、注意パターンを変えることを示唆している。
- 参考スコア(独自算出の注目度): 3.809725488301918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents increasingly leverage long term memory to support persistent and autonomous task execution. However, this capability also introduces a new attack surface: memory poisoning, where adversaries can inject malicious information to influence future behavior. Existing memory poisoning attacks often assume that injected content can be stored directly in memory, overlooking the selective extraction and rewriting stages in modern memory pipelines. This makes prior methods ineffective under realistic settings. In this paper, we propose MemPoison, a novel memory poisoning attack that bypasses selective memory mechanisms in LLM agents, where an attacker can inject triggerable backdoors into the agent's long-term memory through dialogue interactions, thereby misleading its subsequent responses. MemPoison introduces three key components: (i) a semantic relational bridge that binds the trigger and payload into a coherent statement to ensure they are extracted into memory together; (ii) entity masquerading that optimizes triggers to mimic named entities, resisting rewriting; and (iii) joint embedding optimization that shapes trigger-injected texts into a tight cluster in the embedding space while maintaining isolation from benign embeddings for stealth. Evaluations across different agent domains and memory mechanisms show MemPoison achieves attack success rates up to 0.95, outperforming existing baselines. Mechanistic analysis indicates that the attack exploits embedding-space anisotropy and shifts attention patterns, highlighting core vulnerabilities in selective memory systems. We evaluate multiple defense strategies and demonstrate their fundamental limitations in mitigating the attack.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、永続的で自律的なタスク実行をサポートするために、長期記憶を活用する傾向にある。
しかし、この能力は新たな攻撃面、つまり、敵が将来の行動に影響を与える悪意のある情報を注入できるメモリ中毒も導入している。
既存のメモリ中毒攻撃は、インジェクトされたコンテンツが直接メモリに格納され、現代のメモリパイプラインにおける選択的な抽出と書き換えの段階を見渡せると仮定することが多い。
これにより、従来のメソッドは現実的な設定では有効ではない。
本稿では, LLMエージェントの選択的メモリ機構を回避し, エージェントの長期記憶にトリガ可能なバックドアを注入する新たなメモリ中毒攻撃であるMemPoisonを提案する。
MemPoisonは3つの重要なコンポーネントを紹介している。
i) トリガとペイロードをコヒーレントステートメントにバインドして,それらが共にメモリに抽出されることを保証するセマンティックリレーショナルブリッジ
(ii)トリガを最適化して名前付きエンティティを模倣し、書き換えに抵抗するエンティティ仮面化
三 トリガ注入されたテキストを、ステルス用の良性埋め込みからの隔離を維持しつつ、埋め込み空間内のタイトなクラスタに形成する共同埋め込み最適化。
異なるエージェントドメインとメモリメカニズムによる評価では、MemPoisonは攻撃成功率を最大0.95まで達成し、既存のベースラインを上回っている。
メカニスティック分析は、攻撃が埋め込み空間の異方性を悪用し、注意パターンをシフトし、選択メモリシステムにおけるコア脆弱性を強調していることを示している。
我々は、複数の防衛戦略を評価し、攻撃を緩和する基本的な限界を実証する。
関連論文リスト
- Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration [33.8989871605613]
トロイジャン・ヒッポ(Trojan Hippo)は、より現実的な脅威モデルで機能する永続メモリ攻撃のクラスである。
基本的なセキュリティ原則から着想を得た4つのメモリシステム防御を評価し,攻撃成功率を大幅に低下させることを確認した。
この相当なセキュリティとユーティリティのトレードオフのため、防衛の効果的な実世界の展開は、依然としてオープンな課題である。
論文 参考訳(メタデータ) (2026-05-03T17:07:20Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - Memory Poisoning Attack and Defense on Memory Based LLM-Agents [3.7127635602605014]
永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
論文 参考訳(メタデータ) (2026-01-09T03:26:10Z) - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。