論文の概要: Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents
- arxiv url: http://arxiv.org/abs/2603.04814v1
- Date: Thu, 05 Mar 2026 05:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.0782
- Title: Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents
- Title(参考訳): コンテキストウィンドウを超えて: 持続エージェントのためのFact-based Memory vs. Long-Context LLMのコストパフォーマンス解析
- Authors: Natchanon Pollertlam, Witchayut Kornsuwannawit,
- Abstract要約: 永続型AIシステムは、長いコンテキストの大規模言語モデル(LLM)に完全な会話履歴を渡すことと、構造化された事実を抽出して検索する専用のメモリシステムを維持することの選択肢に直面している。
我々は,Mem0フレームワーク上に構築されたファクトベースのメモリシステムと,3つのメモリ中心ベンチマーク上でのLLMの長文推論を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent conversational AI systems face a choice between passing full conversation histories to a long-context large language model (LLM) and maintaining a dedicated memory system that extracts and retrieves structured facts. We compare a fact-based memory system built on the Mem0 framework against long-context LLM inference on three memory-centric benchmarks - LongMemEval, LoCoMo, and PersonaMemv2 - and evaluate both architectures on accuracy and cumulative API cost. Long-context GPT-5-mini achieves higher factual recall on LongMemEval and LoCoMo, while the memory system is competitive on PersonaMemv2, where persona consistency depends on stable, factual attributes suited to flat-typed extraction. We construct a cost model that incorporates prompt caching and show that the two architectures have structurally different cost profiles: long-context inference incurs a per-turn charge that grows with context length even under caching, while the memory system's per-turn read cost remains roughly fixed after a one-time write phase. At a context length of 100k tokens, the memory system becomes cheaper after approximately ten interaction turns, with the break-even point decreasing as context length grows. These results characterize the accuracy-cost trade-off between the two approaches and provide a concrete criterion for selecting between them in production deployments.
- Abstract(参考訳): 永続的な会話型AIシステムは、長いコンテキストの大規模言語モデル(LLM)に完全な会話履歴を渡すことと、構造化された事実を抽出して検索する専用のメモリシステムを維持することの選択肢に直面している。
我々は,Mem0フレームワーク上に構築されたファクトベースのメモリシステムと,LongMemEval,LoCoMo,PersonaMemv2という3つのメモリ中心ベンチマーク上でのLongMemEval,LoCoMo,PersonaMemv2の長文LPM推論を比較し,精度と累積APIコストの両アーキテクチャを評価する。
Long-context GPT-5-mini は LongMemEval と LoCoMo のファクトリコールが高く、PersonaMemv2 ではメモリシステムが競合する。
長いコンテキスト推論は、キャッシュ下であってもコンテキスト長とともに増大するターン単位の電荷を発生させ、一方、メモリシステムのターン単位の読み取りコストは、1回の書き込みフェーズ後に大まかに固定される。
100kトークンのコンテキスト長において、約10のインタラクションのターン後にメモリシステムはより安くなり、コンテキスト長が大きくなるにつれてブレーク・イブンポイントは減少する。
これらの結果は,2つのアプローチ間の精度とコストのトレードオフを特徴付けるとともに,製品展開においてそれらを選択するための具体的な基準を提供する。
関連論文リスト
- EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models [16.865998112859604]
EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
論文 参考訳(メタデータ) (2026-02-01T16:13:08Z) - Beyond Dialogue Time: Temporal Semantic Memory for Personalized LLM Agents [68.84161689205779]
テンポラルセマンティックメモリ(TSM)は、ポイントワイドメモリのセマンティックタイムをモデル化するメモリフレームワークである。
TSMは既存の手法を一貫して上回り、最大12.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-12T12:24:44Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。