論文の概要: EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval
- arxiv url: http://arxiv.org/abs/2604.21229v1
- Date: Thu, 23 Apr 2026 02:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.265235
- Title: EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval
- Title(参考訳): EngramaBench: 構造化グラフ検索による長期会話記憶の評価
- Authors: Julian Acuna,
- Abstract要約: EngramaBenchは、5人のペルソナ、100のマルチセッション会話、100のクエリを中心に構築された長期的な会話メモリのベンチマークである。
我々は,グラフ構造化メモリシステムであるEngramaを,オープンソースのベクトル検索メモリシステムであるMem0とGPT-4oのフルコンテキストプロンプトに対して評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model assistants are increasingly expected to retain and reason over information accumulated across many sessions. We introduce EngramaBench, a benchmark for long-term conversational memory built around five personas, one hundred multi-session conversations, and one hundred fifty queries spanning factual recall, cross-space integration, temporal reasoning, adversarial abstention, and emergent synthesis. We evaluate Engrama, a graph-structured memory system, against GPT-4o full-context prompting and Mem0, an open-source vector-retrieval memory system. All three use the same answering model (GPT-4o), isolating the effect of memory architecture. GPT-4o full-context achieves the highest composite score (0.6186), while Engrama scores 0.5367 globally but is the only system to score higher than full-context prompting on cross-space reasoning (0.6532 vs. 0.6291, n=30). Mem0 is cheapest but substantially weaker (0.4809). Ablations reveal that the components driving Engrama's cross-space advantage trade off against global composite score, exposing a systems-level tension between structured memory specialization and aggregate optimization.
- Abstract(参考訳): 大規模言語モデルアシスタントは、多くのセッションで蓄積された情報を保持し、推論することがますます期待されている。
EngramaBenchは、5人の人物、100のマルチセッション会話、100のクエリで構築された長期会話メモリのベンチマークであり、事実のリコール、空間横断の統合、時間的推論、敵の棄権、創発的合成にまたがる。
我々は,グラフ構造化メモリシステムであるEngramaを,オープンソースのベクトル検索メモリシステムであるMem0とGPT-4oのフルコンテキストプロンプトに対して評価した。
3つとも同じ応答モデル(GPT-4o)を使用しており、メモリアーキテクチャの効果を分離している。
GPT-4oフルコンテクストは最高合成スコア(0.6186)、Engramaは世界全体で0.5367だが、クロススペース推論(0.6532 vs. 0.6291, n=30)でフルコンテクストよりも高いスコアを得るシステムは唯一のシステムである。
Mem0は最も安いが、より弱い(0.4809)。
アブレーションにより、Engramaのクロススペース・アドバンテージを駆動するコンポーネントは、グローバルコンポジットスコアとトレードオフし、構造化メモリの特殊化と集約最適化の間のシステムレベルの緊張を露呈することが明らかになった。
関連論文リスト
- GAAMA: Graph Augmented Associative Memory for Agents [0.0]
GAAMAは、概念を介する階層的知識グラフを構成するグラフ拡張連想記憶システムである。
LoCoMo-10ベンチマーク(10のマルチセッション会話で1,540の質問)では、GAAMAは78.9%の平均報酬を獲得し、調整されたRAGベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-29T23:33:38Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment [54.72137309071243]
AlpsBenchはWildChatからキュレートされた2500の長期的相互作用配列から構成され、人間によって検証された構造化記憶と組み合わせられる。
我々は、パーソナライズされた情報抽出、更新、検索、利用の4つの重要なタスクを定義し、メモリ管理のライフサイクル全体を評価するためのプロトコルを確立する。
i)モデルが潜在ユーザ特性を確実に抽出するのに苦労していること、(ii)メモリ更新が最強モデルでもパフォーマンス天井に直面すること、(iii)大きなイントラクタプールの存在下での検索精度が急激に低下すること、(iv)明示的なメモリ機構がリコールを改善する一方で、リコールは行わないこと、などである。
論文 参考訳(メタデータ) (2026-03-09T11:06:19Z) - EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models [16.865998112859604]
EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
論文 参考訳(メタデータ) (2026-02-01T16:13:08Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - HEMA : A Hippocampus-Inspired Extended Memory Architecture for Long-Context AI Conversations [0.0]
大規模言語モデル(LLM)は、数百回に及ぶ会話におけるコヒーレンスを維持するのに苦労する。
本稿では,人間の認知プロセスにインスパイアされたデュアルメモリシステムであるHEMAを紹介する。
10Kインデックスのチャンクでは、ベクトルメモリはP@5 >= 0.80 と R@50 >= 0.74 を達成し、精度-リコール曲線の下で領域を2倍にする。
論文 参考訳(メタデータ) (2025-04-23T14:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。