論文の概要: MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems
- arxiv url: http://arxiv.org/abs/2605.28732v1
- Date: Wed, 27 May 2026 16:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.229301
- Title: MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems
- Title(参考訳): MemTrace:大規模言語モデルメモリシステムにおけるエラーの追跡と帰属
- Authors: Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang,
- Abstract要約: LLMメモリシステムにおける誤り追跡と帰属の新たな問題について検討する。
本稿では,メモリパイプラインを実行可能なメモリ進化グラフに変換する新しいフレームワークを提案する。
次に、Long-Context、RAG、Mem0、EverMemOSといったメモリシステムから収集されたベンチマークであるMemTraceBenchを構築します。
- 参考スコア(独自算出の注目度): 24.22940060094778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory is essential for enabling large language models to support long-horizon reasoning, yet existing memory systems remain unreliable and difficult to debug. Tracing memory's dynamic evolution is crucial to understand how information is synthesized, propagated, or corrupted over time. In this work, we study the new problem of error tracing and attribution in LLM memory systems. We propose a novel framework that transforms memory pipelines into executable memory evolution graphs, enabling fine-grained tracing of operational information flow. We then construct MemTraceBench, a benchmark collected from representative memory systems such as Long-Context, RAG, Mem0, and EverMemOS, to systematically study memory failure modes. We further introduce an automatic attribution method that iteratively traces operation subgraphs to pinpoint the root cause of any failed case. Our analysis reveals that memory failures are systematic, stemming from operation-level issues like information loss and retrieval misalignment. Crucially, we leverage these fine-grained attribution signals to guide downstream prompt optimization, establishing a closed-loop system that automatically corrects faults and boosts end-task performance by up to 7.62%. Code will be released at https://github.com/zjunlp/MemTrace.
- Abstract(参考訳): 大規模な言語モデルで長期の推論をサポートするためにはメモリが不可欠だが、既存のメモリシステムは信頼性が低く、デバッグも困難である。
追跡メモリの動的進化は、情報が時間とともにどのように合成され、伝播され、あるいは破壊されるかを理解するために重要である。
本研究では,LLMメモリシステムにおけるエラートレースと属性の新たな問題について検討する。
本稿では,メモリパイプラインを実行可能なメモリ進化グラフに変換する新しいフレームワークを提案する。
次に、Long-Context、RAG、Mem0、EverMemOSなどの代表的なメモリシステムから収集されたベンチマークであるMemTraceBenchを構築し、メモリ障害モードを体系的に研究する。
さらに, 故障事例の根本原因を特定するために, 操作部分グラフを反復的にトレースする自動帰属法を導入する。
解析の結果,記憶障害は情報損失や検索ミスアライメントといった操作レベルの問題に起因していることが明らかとなった。
重要なことは、これらの微粒な属性信号を利用して、下流のプロンプト最適化を誘導し、欠陥を自動的に修正し、エンドタスク性能を最大7.62%向上させるクローズドループシステムを確立することである。
コードはhttps://github.com/zjunlp/MemTrace.comでリリースされる。
関連論文リスト
- MemFail: Stress-Testing Failure Modes of LLM Memory Systems [69.80981631587501]
大規模言語モデル(LLM)エージェントは、長期にわたる相互作用において一貫性を保つために、外部メモリシステムに依存している。
既存のベンチマークでは、集計された質問回答の精度を報告し、メモリシステムをブラックボックスとして扱う。
本稿では,現代のLCMメモリシステムの障害モードを分離する診断ベンチマークであるMemFailを紹介する。
論文 参考訳(メタデータ) (2026-05-26T08:03:55Z) - Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents [0.33842793760651557]
制御された介入の下で,候補記憶がモデル応答に与える影響を推定する因果記憶選択手法を提案する。
以上の結果から,CMIは,信頼性の高い長期記憶には関連性のみではなく,因果的有用性に基づくコンテキスト選択が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-05-17T20:21:55Z) - MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents [29.872311031034368]
本稿では,メモリ利用をステートコンディション・メモリ・コンパイルとして再構成するMemCompilerを提案する。
Across Alf World、EmbodiedBench、ScienceWorldでは、MemCompilerは無メモリよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T11:07:04Z) - MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [52.29303869050117]
メモリ拡張LDMエージェントは、長期の相互作用をサポートするために外部メモリバンクを保持する。
MemMAはプラグアンドプレイのマルチエージェントフレームワークで、前方と後方の両方の経路に沿ってメモリサイクルを調整する。
論文 参考訳(メタデータ) (2026-03-19T10:15:59Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models [31.944531660401722]
我々は,大規模言語モデル(LLM)用に設計されたメモリオペレーティングシステムであるMemOSを紹介する。
コアとなるMemCubeは、異種メモリの追跡、融合、マイグレーションを可能にする標準化されたメモリ抽象化である。
MemOSは、強力な制御性、適応性、進化性を備えたメモリ中心の実行フレームワークを確立する。
論文 参考訳(メタデータ) (2025-05-28T08:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。