論文の概要: A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory
- arxiv url: http://arxiv.org/abs/2510.02373v1
- Date: Mon, 29 Sep 2025 16:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.052557
- Title: A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory
- Title(参考訳): A-MemGuard: LLMベースのエージェントメモリのためのプロアクティブディフェンスフレームワーク
- Authors: Qianshan Wei, Tengchao Yang, Yaochen Wang, Xinfeng Li, Lijun Li, Zhenfei Yin, Yi Zhan, Thorsten Holz, Zhiqiang Lin, XiaoFeng Wang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
- 参考スコア(独自算出の注目度): 31.673865459672285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) agents use memory to learn from past interactions, enabling autonomous planning and decision-making in complex environments. However, this reliance on memory introduces a critical security risk: an adversary can inject seemingly harmless records into an agent's memory to manipulate its future behavior. This vulnerability is characterized by two core aspects: First, the malicious effect of injected records is only activated within a specific context, making them hard to detect when individual memory entries are audited in isolation. Second, once triggered, the manipulation can initiate a self-reinforcing error cycle: the corrupted outcome is stored as precedent, which not only amplifies the initial error but also progressively lowers the threshold for similar attacks in the future. To address these challenges, we introduce A-MemGuard (Agent-Memory Guard), the first proactive defense framework for LLM agent memory. The core idea of our work is the insight that memory itself must become both self-checking and self-correcting. Without modifying the agent's core architecture, A-MemGuard combines two mechanisms: (1) consensus-based validation, which detects anomalies by comparing reasoning paths derived from multiple related memories and (2) a dual-memory structure, where detected failures are distilled into ``lessons'' stored separately and consulted before future actions, breaking error cycles and enabling adaptation. Comprehensive evaluations on multiple benchmarks show that A-MemGuard effectively cuts attack success rates by over 95% while incurring a minimal utility cost. This work shifts LLM memory security from static filtering to a proactive, experience-driven model where defenses strengthen over time. Our code is available in https://github.com/TangciuYueng/AMemGuard
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、メモリを使用して過去のインタラクションから学習し、複雑な環境で自律的な計画と意思決定を可能にする。
しかし、このメモリへの依存は重大なセキュリティリスクをもたらし、敵はエージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
第一に、インジェクトされたレコードの悪意のある効果は特定のコンテキスト内でのみ活性化され、個々のメモリエントリが独立して監査されていることを検出できない。
破損した結果は前例として保存され、初期エラーを増幅するだけでなく、将来同様の攻撃の閾値を徐々に下げる。
これらの課題に対処するために、LLMエージェントメモリのための最初のプロアクティブディフェンスフレームワークであるA-MemGuard(Agent-Memory Guard)を紹介する。
私たちの仕事の中核となる考え方は、メモリ自体が自己チェックと自己修正の両方でなければならない、という洞察です。
A-MemGuardはエージェントのコアアーキテクチャを変更することなく、(1)複数の関連する記憶から導かれる推論経路を比較して異常を検出するコンセンサスベースの検証、(2)検出された障害を別々に保存し、将来の動作前に相談し、エラーサイクルを破り、適応を可能にする二重メモリ構造という2つのメカニズムを組み合わせる。
複数のベンチマークに関する総合的な評価によると、A-MemGuardは攻撃成功率を95%以上削減し、最小限のユーティリティコストを発生させる。
この作業は、LCMメモリのセキュリティを静的フィルタリングから、防御が時間とともに強化される積極的、経験駆動モデルにシフトさせる。
私たちのコードはhttps://github.com/TangciuYueng/AMemGuardで利用可能です。
関連論文リスト
- MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - Memory Poisoning Attack and Defense on Memory Based LLM-Agents [3.7127635602605014]
永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
論文 参考訳(メタデータ) (2026-01-09T03:26:10Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。
筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文 参考訳(メタデータ) (2025-08-01T13:04:28Z) - VerificAgent: Domain-Specific Memory Verification for Scalable Oversight of Aligned Computer-Use Agents [0.17812428873698402]
未確認の記憶は、ユーザの意図や安全性の制約から逸脱することがある。
CUAのためのスケーラブルな監視フレームワークであるVerificAgentを紹介する。
VerificAgentはタスクの信頼性を改善し、幻覚による障害を低減し、解釈可能な監査可能なガイダンスを保持する。
論文 参考訳(メタデータ) (2025-06-03T07:25:49Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [81.44934796068495]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
悪意のある攻撃者は、有害な質問応答(QA)ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入することができる。
脱獄型LDMのための新しいテキストクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。