論文の概要: EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01313v2
- Date: Tue, 03 Feb 2026 03:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.847525
- Title: EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models
- Title(参考訳): EverMemBench: 大規模言語モデルにおける長期インタラクティブメモリのベンチマーク
- Authors: Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xinda Zhao, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng,
- Abstract要約: EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
- 参考スコア(独自算出の注目度): 16.865998112859604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term conversational memory is essential for LLM-based assistants, yet existing benchmarks focus on dyadic, single-topic dialogues that fail to capture real-world complexity. We introduce EverMemBench, a benchmark featuring multi-party, multi-group conversations spanning over 1 million tokens with temporally evolving information, cross-topic interleaving, and role-specific personas. EverMemBench evaluates memory systems across three dimensions through 1,000+ QA pairs: fine-grained recall, memory awareness, and user profile understanding. Our evaluation reveals critical limitations: (1) multi-hop reasoning collapses in multi-party settings, with even oracle models achieving only 26%; (2) temporal reasoning remains unsolved, requiring version semantics beyond timestamp matching; (3) memory awareness is bottlenecked by retrieval, where current similarity-based methods fail to bridge the semantic gap between queries and implicitly relevant memories. EverMemBench provides a challenging testbed for developing next-generation memory architectures.
- Abstract(参考訳): LLMベースのアシスタントには長期の会話記憶が不可欠だが、既存のベンチマークでは、現実の複雑さを捉えるのに失敗するダイアディックなシングルトピックの対話に重点を置いている。
我々はEverMemBenchというベンチマークを紹介した。これは、100万以上のトークンに、時間的に進化する情報、横断的インターリーブ、ロール固有のペルソナを含むマルチパーティのマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、微細なリコール、メモリ認識、ユーザプロファイル理解という、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
評価では,(1)マルチホップ推論の崩壊,(2)時間的推論は未解決であり,タイムスタンプマッチング以上のバージョンセマンティクスを必要とすること,(3)現在の類似性に基づく手法ではクエリと暗黙的に関連づけられたメモリ間のセマンティクスギャップを埋めることができないこと,などの限界が明らかになった。
EverMemBenchは、次世代メモリアーキテクチャを開発する上で困難なテストベッドを提供する。
関連論文リスト
- EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs [28.807582003957005]
本稿では,長期記憶を必要とするタスクに対する大規模言語モデル(LLM)の能力を評価するためのフレームワークを提案する。
次に、100の会話と2000の検証済みの質問からなる新しいベンチマークであるBEAMを構築します。
モデル性能を向上させるために,LLMに3つの相補的メモリシステムを備えたLIGHT-aフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T07:29:52Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。