論文の概要: A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory
- arxiv url: http://arxiv.org/abs/2510.02373v1
- Date: Mon, 29 Sep 2025 16:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.052557
- Title: A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory
- Title(参考訳): A-MemGuard: LLMベースのエージェントメモリのためのプロアクティブディフェンスフレームワーク
- Authors: Qianshan Wei, Tengchao Yang, Yaochen Wang, Xinfeng Li, Lijun Li, Zhenfei Yin, Yi Zhan, Thorsten Holz, Zhiqiang Lin, XiaoFeng Wang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
- 参考スコア(独自算出の注目度): 31.673865459672285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) agents use memory to learn from past interactions, enabling autonomous planning and decision-making in complex environments. However, this reliance on memory introduces a critical security risk: an adversary can inject seemingly harmless records into an agent's memory to manipulate its future behavior. This vulnerability is characterized by two core aspects: First, the malicious effect of injected records is only activated within a specific context, making them hard to detect when individual memory entries are audited in isolation. Second, once triggered, the manipulation can initiate a self-reinforcing error cycle: the corrupted outcome is stored as precedent, which not only amplifies the initial error but also progressively lowers the threshold for similar attacks in the future. To address these challenges, we introduce A-MemGuard (Agent-Memory Guard), the first proactive defense framework for LLM agent memory. The core idea of our work is the insight that memory itself must become both self-checking and self-correcting. Without modifying the agent's core architecture, A-MemGuard combines two mechanisms: (1) consensus-based validation, which detects anomalies by comparing reasoning paths derived from multiple related memories and (2) a dual-memory structure, where detected failures are distilled into ``lessons'' stored separately and consulted before future actions, breaking error cycles and enabling adaptation. Comprehensive evaluations on multiple benchmarks show that A-MemGuard effectively cuts attack success rates by over 95% while incurring a minimal utility cost. This work shifts LLM memory security from static filtering to a proactive, experience-driven model where defenses strengthen over time. Our code is available in https://github.com/TangciuYueng/AMemGuard
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、メモリを使用して過去のインタラクションから学習し、複雑な環境で自律的な計画と意思決定を可能にする。
しかし、このメモリへの依存は重大なセキュリティリスクをもたらし、敵はエージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
第一に、インジェクトされたレコードの悪意のある効果は特定のコンテキスト内でのみ活性化され、個々のメモリエントリが独立して監査されていることを検出できない。
破損した結果は前例として保存され、初期エラーを増幅するだけでなく、将来同様の攻撃の閾値を徐々に下げる。
これらの課題に対処するために、LLMエージェントメモリのための最初のプロアクティブディフェンスフレームワークであるA-MemGuard(Agent-Memory Guard)を紹介する。
私たちの仕事の中核となる考え方は、メモリ自体が自己チェックと自己修正の両方でなければならない、という洞察です。
A-MemGuardはエージェントのコアアーキテクチャを変更することなく、(1)複数の関連する記憶から導かれる推論経路を比較して異常を検出するコンセンサスベースの検証、(2)検出された障害を別々に保存し、将来の動作前に相談し、エラーサイクルを破り、適応を可能にする二重メモリ構造という2つのメカニズムを組み合わせる。
複数のベンチマークに関する総合的な評価によると、A-MemGuardは攻撃成功率を95%以上削減し、最小限のユーティリティコストを発生させる。
この作業は、LCMメモリのセキュリティを静的フィルタリングから、防御が時間とともに強化される積極的、経験駆動モデルにシフトさせる。
私たちのコードはhttps://github.com/TangciuYueng/AMemGuardで利用可能です。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。
筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文 参考訳(メタデータ) (2025-08-01T13:04:28Z) - VerificAgent: Domain-Specific Memory Verification for Scalable Oversight of Aligned Computer-Use Agents [0.17812428873698402]
未確認の記憶は、ユーザの意図や安全性の制約から逸脱することがある。
CUAのためのスケーラブルな監視フレームワークであるVerificAgentを紹介する。
VerificAgentはタスクの信頼性を改善し、幻覚による障害を低減し、解釈可能な監査可能なガイダンスを保持する。
論文 参考訳(メタデータ) (2025-06-03T07:25:49Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [81.44934796068495]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
悪意のある攻撃者は、有害な質問応答(QA)ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入することができる。
脱獄型LDMのための新しいテキストクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。