論文の概要: State Contamination in Memory-Augmented LLM Agents
- arxiv url: http://arxiv.org/abs/2605.16746v1
- Date: Sat, 16 May 2026 01:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.336046
- Title: State Contamination in Memory-Augmented LLM Agents
- Title(参考訳): 記憶増強LDM剤における状態汚染
- Authors: Yian Wang, Agam Goyal, Yuen Chen, Hari Sundaram,
- Abstract要約: 我々は、メモリ洗浄と呼ばれる障害モードについて研究し、有害または敵対的なコンテキストをメモリサマリーに圧縮することができ、標準検出器では有害に見えなくなる。
対向型マルチエージェントロールアウトを用いて、毒性-オリジンメモリサマリーは一般的な毒性閾値以下であることを示す。
実験により、毒性は異なる状態チャネルを介して伝播し、一方、圧縮メモリは隠れたサブスレッショルドの影響をもたらすことが示された。
- 参考スコア(独自算出の注目度): 10.438004034144884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents increasingly rely on persistent state, including transcripts, summaries, retrieved context, and memory buffers, to support long-horizon interaction. This makes safety depend not only on individual model outputs, but also on what an agent stores and later reuses. We study a failure mode we call memory laundering: toxic or adversarial context can be compressed into memory summaries that no longer appear toxic under standard detectors, while still preserving hostile framing or conflict structure that influences future generations. Using paired counterfactual multi-agent rollouts, we show that toxic-origin memory summaries can remain below common toxicity thresholds while nevertheless increasing downstream toxicity relative to matched neutral baselines. To measure this hidden influence, we introduce the sub-threshold propagation gap (SPG), which quantifies downstream behavioral differences conditioned on memory states that a deployed monitor would classify as safe. Our experiments show that toxicity propagates through distinct state channels: raw transcript reuse drives overt downstream toxicity, while compressed memory carries hidden sub-threshold influence. We further find that mitigation depends critically on intervention placement. Sanitizing toxic state before summarization substantially reduces the hidden propagation gap, whereas cleaning only the completed summary can leave laundered influence intact. These results suggest that safety in memory-augmented agents should be treated as a state-control problem over evolving context, with sanitization applied before unsafe information is compressed into persistent memory.
- Abstract(参考訳): LLMエージェントは、長い水平相互作用をサポートするために、書き起こし、要約、検索されたコンテキスト、メモリバッファを含む永続的な状態にますます依存している。
これにより、安全性は個々のモデル出力だけでなく、エージェントが保存し、後で再利用するものにも依存する。
我々は、メモリ洗浄と呼ばれる障害モードについて研究する: 有害または敵対的なコンテキストは、通常の検出器では有害に見えないメモリサマリーに圧縮できるが、それでも、将来の世代に影響を与える敵対的なフレーミングやコンフリクト構造を保っている。
対向型マルチエージェントロールアウトを用いて, 毒性-オリジンメモリサマリーは, 一致した中性基線に対して下流の毒性を増大させる一方, 共通毒性閾値以下に留まることを示す。
この隠れた影響を測定するために、我々はサブスレッショルド伝搬ギャップ(SPG)を導入し、デプロイされたモニタが安全に分類するメモリ状態に条件付けられた下流の挙動差を定量化する。
生の転写産物の再利用は下流の毒性を過度に促進し, 圧縮メモリは隠れたサブスレッショルドの影響を及ぼしている。
さらに、緩和は介入の配置に大きく依存していることがわかりました。
要約前の毒性状態の消毒は、隠れた伝播ギャップを著しく減少させる一方、完了した要約のみを洗浄することで、洗浄された影響をそのまま残すことができる。
これらの結果から、メモリ拡張エージェントの安全性は、安全でない情報が永続メモリに圧縮される前に、衛生化を適用して、進化するコンテキストよりも状態制御の問題として扱うべきであることが示唆された。
関連論文リスト
- MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Mind Your HEARTBEAT! Claw Background Execution Inherently Enables Silent Memory Pollution [55.87577638514179]
この脆弱性はClawエコシステム全体で共有されるアーキテクチャ設計から生じる。
外部ソースから取り込まれたコンテンツは、フォアグラウンドインタラクションに使用される同じメモリコンテキストに入ることができる。
私たちはMissClawを使ってエージェントネイティブな社会設定でこの経路をインスタンス化する。
論文 参考訳(メタデータ) (2026-03-24T11:01:09Z) - Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement [14.1763272695827]
大規模な言語モデル (LLM) は、しばしば過剰な拒絶に悩まされる。
この振る舞いはモデルの有用性を損なうものであり、センシティブまたはニュアンスドコンテキストにおけるユーザビリティを制限する。
我々は、この問題は、モデルの学習力学に有毒で一見有毒なプロンプトのあいまいな影響から生じると論じる。
論文 参考訳(メタデータ) (2026-02-10T05:53:10Z) - Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-06T11:33:17Z) - Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文 参考訳(メタデータ) (2026-02-03T08:54:25Z) - Harm in AI-Driven Societies: An Audit of Toxicity Adoption on Chirper.ai [8.967224730909258]
大規模言語モデル(LLM)は、オンライン社会エコシステムに参加する自律エージェントにますます組み込まれています。
完全AI駆動型ソーシャルプラットフォームであるChirper.aiにおけるLSM駆動型エージェントの毒性導入について検討した。
論文 参考訳(メタデータ) (2026-01-03T06:33:08Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Learn What NOT to Learn: Towards Generative Safety in Chatbots [40.8106410437709]
正負の学習信号と負の学習信号の両方から学習することで一般化を高めるために、対照的な損失を生かした「LOT」(Learn NOT to)という新しいフレームワークを提案する。
LOTは毒性を最大4倍に減らし、ベースラインモデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成している。
論文 参考訳(メタデータ) (2023-04-21T18:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。