論文の概要: MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval
- arxiv url: http://arxiv.org/abs/2512.16962v1
- Date: Thu, 18 Dec 2025 08:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.125895
- Title: MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval
- Title(参考訳): MemoryGraft: LLMエージェントのPhoisoned Experience Retrievalによる永続的な妥協
- Authors: Saksham Sahai Srivastava, Haoyu He,
- Abstract要約: MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
- 参考スコア(独自算出の注目度): 5.734678752740074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents increasingly rely on long-term memory and Retrieval-Augmented Generation (RAG) to persist experiences and refine future performance. While this experience learning capability enhances agentic autonomy, it introduces a critical, unexplored attack surface, i.e., the trust boundary between an agent's reasoning core and its own past. In this paper, we introduce MemoryGraft. It is a novel indirect injection attack that compromises agent behavior not through immediate jailbreaks, but by implanting malicious successful experiences into the agent's long-term memory. Unlike traditional prompt injections that are transient, or standard RAG poisoning that targets factual knowledge, MemoryGraft exploits the agent's semantic imitation heuristic which is the tendency to replicate patterns from retrieved successful tasks. We demonstrate that an attacker who can supply benign ingestion-level artifacts that the agent reads during execution can induce it to construct a poisoned RAG store where a small set of malicious procedure templates is persisted alongside benign experiences. When the agent later encounters semantically similar tasks, union retrieval over lexical and embedding similarity reliably surfaces these grafted memories, and the agent adopts the embedded unsafe patterns, leading to persistent behavioral drift across sessions. We validate MemoryGraft on MetaGPT's DataInterpreter agent with GPT-4o and find that a small number of poisoned records can account for a large fraction of retrieved experiences on benign workloads, turning experience-based self-improvement into a vector for stealthy and durable compromise. To facilitate reproducibility and future research, our code and evaluation data are available at https://github.com/Jacobhhy/Agent-Memory-Poisoning.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、経験を継続し、将来のパフォーマンスを洗練させるために、長期記憶と検索拡張生成(RAG)に依存している。
この経験的学習能力はエージェントの自律性を高めるが、クリティカルで未探索な攻撃面、すなわちエージェントの推論コアと自身の過去の信頼境界を導入する。
本稿では,MemoryGraftについて紹介する。
これは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって損なう新規な間接注射攻撃である。
現実的な知識を標的とする通常のRAG中毒のような過渡的なプロンプトインジェクションとは異なり、MemoryGraftは、取得した成功したタスクからパターンを複製する傾向にあるエージェントの意味模倣ヒューリスティックを利用する。
本研究では、エージェントが実行中に読み取った良性摂取レベルのアーティファクトを供給できる攻撃者が、悪質なプロシージャテンプレートの小さなセットが良性体験とともに持続する有毒なRAGストアを構築するよう誘導できることを実証する。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙的および埋め込み的類似性による結合検索は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
我々は、MetaGPTのDataInterpreterエージェントにGPT-4oでMemoryGraftを検証し、少数の有毒レコードが、ベクターベースの自己改善をステルスで永続的な妥協のためのベクターに変えることによって、良質なワークロードで取得した経験の大部分を考慮できることを確認した。
再現性と今後の研究を容易にするため,コードと評価データはhttps://github.com/Jacobhhy/Agent-Memory-Poisoning.comで公開されている。
関連論文リスト
- Reasoning-Style Poisoning of LLM Agents via Stealthy Style Transfer: Process-Level Attacks and Runtime Monitoring in RSV Space [4.699272847316498]
Reasoning-Style Poisoning (RSP)は、エージェントが処理するものよりも情報を処理する方法を操作する。
Generative Style Injection (GSI)は、検索した文書を病的トーンに書き換える。
RSP-Mは軽量なランタイムモニタで、RSVメトリクスをリアルタイムで計算し、安全性の閾値を超える値にアラートをトリガーする。
論文 参考訳(メタデータ) (2025-12-16T14:34:10Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - VerificAgent: Domain-Specific Memory Verification for Scalable Oversight of Aligned Computer-Use Agents [0.17812428873698402]
未確認の記憶は、ユーザの意図や安全性の制約から逸脱することがある。
CUAのためのスケーラブルな監視フレームワークであるVerificAgentを紹介する。
VerificAgentはタスクの信頼性を改善し、幻覚による障害を低減し、解釈可能な監査可能なガイダンスを保持する。
論文 参考訳(メタデータ) (2025-06-03T07:25:49Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [65.70584076918679]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [31.542621203252295]
大規模言語モデル (LLM) を利用したエージェントは、リコメンデータシステム (RS) でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々はDrunkAgentという新しいブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - Memory Injection Attacks on LLM Agents via Query-Only Interaction [49.14715983268449]
我々は,攻撃者がエージェントのメモリバンクを直接変更できると仮定することなく,新たなメモリインジェクション攻撃(MINJA)を提案する。
攻撃者は、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入する。
MINJAは、任意のユーザがエージェントメモリに影響を与え、リスクを強調します。
論文 参考訳(メタデータ) (2025-03-05T17:53:24Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。