論文の概要: Neuromem: A Granular Decomposition of the Streaming Lifecycle in External Memory for LLMs
- arxiv url: http://arxiv.org/abs/2602.13967v1
- Date: Sun, 15 Feb 2026 02:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.583641
- Title: Neuromem: A Granular Decomposition of the Streaming Lifecycle in External Memory for LLMs
- Title(参考訳): ニューロメム:LCMの外部記憶におけるストリーミングライフサイクルの粒状分解
- Authors: Ruicheng Zhang, Xinyi Li, Tianyi Xu, Shuhao Zhang, Xiaofei Liao, Hai Jin,
- Abstract要約: 我々は、インターリーブされた挿入・検索プロトコルの下で外部メモリモジュールをベンチマークするスケーラブルなテストベッドであるNeuromemを紹介する。
メモリが丸ごと増大するにつれて、パフォーマンスは一般的に低下し、時間関連のクエリは依然として最も難しいカテゴリです。
- 参考スコア(独自算出の注目度): 31.958776309037546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most evaluations of External Memory Module assume a static setting: memory is built offline and queried at a fixed state. In practice, memory is streaming: new facts arrive continuously, insertions interleave with retrievals, and the memory state evolves while the model is serving queries. In this regime, accuracy and cost are governed by the full memory lifecycle, which encompasses the ingestion, maintenance, retrieval, and integration of information into generation. We present Neuromem, a scalable testbed that benchmarks External Memory Modules under an interleaved insertion-and-retrieval protocol and decomposes its lifecycle into five dimensions including memory data structure, normalization strategy, consolidation policy, query formulation strategy, and context integration mechanism. Using three representative datasets LOCOMO, LONGMEMEVAL, and MEMORYAGENTBENCH, Neuromem evaluates interchangeable variants within a shared serving stack, reporting token-level F1 and insertion/retrieval latency. Overall, we observe that performance typically degrades as memory grows across rounds, and time-related queries remain the most challenging category. The memory data structure largely determines the attainable quality frontier, while aggressive compression and generative integration mechanisms mostly shift cost between insertion and retrieval with limited accuracy gain.
- Abstract(参考訳): メモリはオフラインで構築され、固定状態でクエリされる。
実際には、メモリはストリーミングである:新しい事実が継続的に届き、挿入が検索とインターリーブし、モデルがクエリを提供している間にメモリ状態が進化する。
この体制では、正確性とコストは、情報の取り込み、保守、検索、生成への統合を含む完全なメモリライフサイクルによって管理される。
我々は、インターリーブされた挿入・検索プロトコルの下で外部メモリモジュールをベンチマークし、そのライフサイクルをメモリデータ構造、正規化戦略、統合ポリシー、クエリ定式化戦略、コンテキスト統合機構を含む5つの次元に分解するスケーラブルなテストベッドであるNeuromemを提案する。
LOCOMO、LONGMEMEVAL、MEMORYAGENTBENCHの3つの代表的なデータセットを使用して、Neuromemは共有サービススタック内の交換可能な変種を評価し、トークンレベルF1と挿入/検索遅延を報告している。
全体としては、メモリが丸ごと増大するにつれてパフォーマンスが低下し、時間関連のクエリが依然として最も難しいカテゴリである。
メモリデータ構造は、達成可能な品質フロンティアを大半が決定し、一方、積極的な圧縮および生成的統合機構は、挿入と検索のコストを、精度の低い精度でシフトさせる。
関連論文リスト
- MemFly: On-the-Fly Memory Optimization via Information Bottleneck [35.420309099411874]
長期記憶により、大きな言語モデルエージェントは歴史的相互作用を通じて複雑なタスクに取り組むことができる。
既存のフレームワークは、冗長な情報を効率よく圧縮し、下流タスクの正確な検索を維持するというジレンマに遭遇する。
MemFlyは、LLMのオンザフライメモリ進化を促進する情報ボトルネックの原則に基づくフレームワークである。
MemFlyは、メモリコヒーレンス、応答忠実度、精度において最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-02-08T09:37:25Z) - Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning [44.94110361062394]
実世界の意思決定は、安定かつ適応性のあるメモリに依存する。
既存の強化学習ベンチマークとメモリ拡張エージェントは、主に保持に焦点を当てている。
部分的な可観測性の下で連続的なメモリ更新を明示的にテストするベンチマークを導入する。
論文 参考訳(メタデータ) (2026-01-21T15:27:23Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。