論文の概要: MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.23723v1
- Date: Fri, 22 May 2026 15:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.404748
- Title: MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection
- Title(参考訳): MemAudit: 因果帰属と構造異常検出による中毒性エージェント記憶のポストホック監査
- Authors: Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan, liang lu, Feng Liu, Xiangzheng Zhang, Duohe Ma, Tong Yang, Lin Sun,
- Abstract要約: 本稿では,大規模言語モデルエージェントのための時間後因果記憶監査フレームワークを提案する。
MemAuditは、現実的なポストホック監査シナリオ下での攻撃成功率を大幅に削減する。
- 参考スコア(独自算出の注目度): 15.403262505444454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model agents increasingly rely on persistent memory to store past interactions, retrieve relevant demonstrations, and improve long-horizon task execution. However, this memory mechanism also creates a practical security vulnerability: an adversarial user may inject malicious records into the agent's memory through ordinary interaction, and these records can later be retrieved to steer the agent's reasoning and actions. Existing defenses primarily focus on online intervention, such as prompt filtering or output blocking, but they do not address the post-hoc question of which stored memories are responsible after harmful behavior has already been observed. We propose \textbf{MemAudit}, a post-hoc causal memory auditing framework for memory-augmented LLM agents. The framework combines two complementary signals: (1) a counterfactual memory influence score that measures each memory's causal contribution to harmful outputs, and (2) a memory consistency graph that identifies structurally anomalous memories within the broader memory store. We evaluate MemAudit against MINJA, a query-only memory injection attack in which malicious records are generated and stored through normal agent interactions rather than direct memory-bank modification. Across both QA and reasoning-agent settings, MemAudit substantially reduces attack success rates under realistic post-hoc auditing scenarios. The results show that QA attack success is reduced from $70\%$ to $0\%$, while RAP attack success drops from $83.3\%$ to $0\%$.
- Abstract(参考訳): 大規模な言語モデルエージェントは、過去のインタラクションを保存したり、関連するデモを検索したり、長期タスクの実行を改善するために、永続的なメモリに依存している。
しかし、このメモリ機構はまた、現実的なセキュリティ上の脆弱性も生み出す: 敵のユーザは通常のインタラクションを通じて悪意のあるレコードをエージェントのメモリに注入することができ、これらのレコードは後にエージェントの推論とアクションを操縦するために回収される。
既存の防衛は、プロンプトフィルタリングやアウトプットブロッキングなどのオンライン介入に重点を置いているが、すでに有害な行動が観察された後に記憶された記憶がどの責任を負っているのかというポストホックな問題には対処していない。
本稿では,メモリ拡張LDMエージェントの因果性監査フレームワークであるtextbf{MemAudit}を提案する。
本フレームワークは,(1)有害な出力に対する各メモリの因果的寄与を測定する反実的メモリ影響スコア,(2)広いメモリストア内の構造的異常なメモリを識別するメモリ一貫性グラフの2つの相補的信号を組み合わせた。
我々は,MemAudit を MINJA に対して評価する。これはクエリオンリーのメモリインジェクション攻撃であり,悪質なレコードが直接のメモリバンク修正ではなく,通常のエージェントインタラクションによって生成され,保存される。
QAと推論エージェント設定の両方で、MemAuditは、現実的なポストホック監査シナリオ下での攻撃成功率を大幅に削減する。
その結果、QA攻撃の成功率は70 %$から0 %$に減少し、RAP攻撃の成功は83.3 %$から0 %$に低下した。
関連論文リスト
- Remembering More, Risking More: Longitudinal Safety Risks in Memory-Equipped LLM Agents [18.83666486835137]
デプロイでは、単一のエージェントが長い水平線上で多くの独立したタスクを処理し、初期のタスクの間に蓄積されたメモリは、後続の無関係なタスクの振る舞いに影響を与える可能性がある。
本稿では,リードオンリーのメモリスナップショットに対して,プレフィックス長の異なる固定プローブセットを評価するトリガプローブプロトコルを提案する。
このプロトコルは、レコード、メモ、フォーム、Eメール対応、および8つのメモリアーキテクチャにまたがる3つのデプロイメントシナリオに適用する。
論文 参考訳(メタデータ) (2026-05-18T04:06:34Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents [14.695250837875454]
本稿では,ActMemと呼ばれる新しい動作可能なメモリフレームワークを提案する。
ActMemは非構造化対話履歴を構造化因果グラフと意味グラフに変換する。
エージェントは暗黙の制約を推論し、過去の状態と現在の意図の間の潜在的な衝突を解決することができる。
論文 参考訳(メタデータ) (2026-02-04T00:54:53Z) - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。