論文の概要: Hidden in Memory: Sleeper Memory Poisoning in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.15338v2
- Date: Mon, 18 May 2026 07:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.097083
- Title: Hidden in Memory: Sleeper Memory Poisoning in LLM Agents
- Title(参考訳): 記憶に隠された記憶:LDMエージェントのスリーパーメモリ中毒
- Authors: Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth, Mario Fritz,
- Abstract要約: 本研究は, 睡眠時記憶障害(sleeper memory poisoning)について検討する。これは, 相手が外部コンテキストを操作して, ユーザに関する偽造記憶を記憶させる, 遅延攻撃である。
従来のプロンプトインジェクションとは異なり、攻撃は休眠状態のままで、後続の会話をまたいで再起動することができる。
GPT-5.5では99.8%、Kim-K2.6では95%の有毒な記憶が加えられた。
- 参考スコア(独自算出の注目度): 39.7102258719441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly augmented with persistent memory, allowing assistants to store user-specific information across sessions for personalization and continuity. This statefulness introduces a new security risk: adversarial content can corrupt what an assistant remembers and thereby influence future interactions. We propose and study sleeper memory poisoning, a delayed attack in which an adversary manipulates external context, such as a document, webpage, or repository, to cause the assistant to store a fabricated memory about the user. Unlike conventional prompt injection, the attack can remain dormant and re-emerge across multiple later conversations. We evaluate the full attack pipeline: whether poisoned memories are written, later retrieved, and ultimately used to steer the following conversations. Across stateful LLM assistants, poisoned memories were added up to 99.8% on GPT-5.5 and 95% on Kimi-K2.6. Crucially, among successful retrievals, poisoned memories cause attacker-intended agentic actions in 60-89% of evaluations across models. These results show that persistent memory can act as a long-term attack surface across multiple future conversations.
- Abstract(参考訳): 大規模な言語モデルは、永続的なメモリで拡張され、アシスタントはパーソナライズと継続のためにセッション間でユーザー固有の情報を格納できる。
このステートフルネスは、新たなセキュリティリスクをもたらす: 敵対的コンテンツは、アシスタントが記憶するものを台無しにし、将来のインタラクションに影響を与える。
本稿では,文書,Webページ,リポジトリなどの外部コンテキストを操作する遅延攻撃であるスリーパーメモリ中毒について検討し,ユーザに関する偽造メモリを記憶させる。
従来のプロンプトインジェクションとは異なり、攻撃は休眠状態のままで、後続の会話をまたいで再起動することができる。
有毒な記憶が書き込まれるか、その後回収されるか、そして最終的に次の会話を操るのに使用されるかという、完全なアタックパイプラインを評価する。
GPT-5.5では99.8%、Kim-K2.6では95%の有毒な記憶が加えられた。
重要なことは、検索の成功の中で、有毒な記憶は、モデル全体の評価の60~89%で攻撃者が意図したエージェント行為を引き起こす。
これらの結果から, 永続記憶は, 複数の今後の会話において, 長期的攻撃面として機能する可能性が示唆された。
関連論文リスト
- From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents [38.52713500119118]
Memoraは、数週間から数ヶ月のユーザ会話にまたがる長期メモリベンチマークです。
ベンチマークでは、記憶、推論、レコメンデーションの3つのメモリグラウンドタスクを評価している。
FAMA(Forgetting-Aware Memory Accuracy)は、古いメモリや無効メモリへの依存を罰するメトリクスである。
論文 参考訳(メタデータ) (2026-04-21T21:31:01Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - PersistBench: When Should Long-Term Memories Be Forgotten by LLMs? [4.657424818207681]
PersistBenchを導入し、長期記憶に特有な安全性リスクの度合いを計測する。
我々は,クロスドメインリークと長期記憶障害の2つのリスクを同定した。
我々のベンチマークは、フロンティアの会話システムにおいて、より堅牢で安全な長期メモリ使用量の開発を促進する。
論文 参考訳(メタデータ) (2026-02-01T10:44:58Z) - OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。
エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。
我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2026-01-20T08:27:13Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。