論文の概要: AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management
- arxiv url: http://arxiv.org/abs/2602.07398v1
- Date: Sat, 07 Feb 2026 06:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.602487
- Title: AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management
- Title(参考訳): AgentSys: 階層型メモリ管理によるセキュアかつ動的LLMエージェント
- Authors: Ruoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang,
- Abstract要約: 既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
- 参考スコア(独自算出の注目度): 47.49917373646469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indirect prompt injection threatens LLM agents by embedding malicious instructions in external content, enabling unauthorized actions and data theft. LLM agents maintain working memory through their context window, which stores interaction history for decision-making. Conventional agents indiscriminately accumulate all tool outputs and reasoning traces in this memory, creating two critical vulnerabilities: (1) injected instructions persist throughout the workflow, granting attackers multiple opportunities to manipulate behavior, and (2) verbose, non-essential content degrades decision-making capabilities. Existing defenses treat bloated memory as given and focus on remaining resilient, rather than reducing unnecessary accumulation to prevent the attack. We present AgentSys, a framework that defends against indirect prompt injection through explicit memory management. Inspired by process memory isolation in operating systems, AgentSys organizes agents hierarchically: a main agent spawns worker agents for tool calls, each running in an isolated context and able to spawn nested workers for subtasks. External data and subtask traces never enter the main agent's memory; only schema-validated return values can cross boundaries through deterministic JSON parsing. Ablations show isolation alone cuts attack success to 2.19%, and adding a validator/sanitizer further improves defense with event-triggered checks whose overhead scales with operations rather than context length. On AgentDojo and ASB, AgentSys achieves 0.78% and 4.25% attack success while slightly improving benign utility over undefended baselines. It remains robust to adaptive attackers and across multiple foundation models, showing that explicit memory management enables secure, dynamic LLM agent architectures. Our code is available at: https://github.com/ruoyaow/agentsys-memory.
- Abstract(参考訳): 間接的なプロンプトインジェクションは、悪意のある命令を外部コンテンツに埋め込むことでLLMエージェントを脅かす。
LLMエージェントは、コンテキストウィンドウを通じて作業メモリを保持し、決定のためのインタラクション履歴を格納する。
従来のエージェントは、このメモリにすべてのツール出力とトレースを無差別に蓄積し、2つの重大な脆弱性を生成します。
既存の防御は、攻撃を防ぐために不要な蓄積を減らすのではなく、肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
メインエージェントはツールコールのためにワーカーエージェントを発生させ、それぞれが独立したコンテキストで実行され、サブタスクのためにネストされたワーカーを発生させることができる。
外部データとサブタスクトレースはメインエージェントのメモリに決して入らない。決定論的JSON解析を通じてスキーマ検証された戻り値だけが境界を越えることができる。
アブレーションは、アイソレーションだけで攻撃の成功を2.19%に削減し、バリデータ/サニタイザを追加することで、コンテキスト長ではなく操作によってオーバーヘッドがスケールするイベントトリガー付きチェックによる防御をさらに改善することを示している。
AgentDojoとASBでは、AgentSysは0.78%と4.25%の攻撃成功を達成すると同時に、修正されていないベースラインよりも良質なユーティリティをわずかに改善している。
適応攻撃者や複数の基盤モデルに対して堅牢であり、明示的なメモリ管理によってセキュアで動的LLMエージェントアーキテクチャが実現可能であることを示している。
私たちのコードは、https://github.com/ruoyaow/agentsys-Memoryで利用可能です。
関連論文リスト
- BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。