論文の概要: EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory
- arxiv url: http://arxiv.org/abs/2601.03543v1
- Date: Wed, 07 Jan 2026 03:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.179084
- Title: EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory
- Title(参考訳): EvolMem: マルチセッション対話メモリのための認知駆動ベンチマーク
- Authors: Ye Shen, Dun Pei, Yiqiu Guo, Junying Wang, Yijin Guo, Zicheng Zhang, Qi Jia, Jun Zhou, Guangtao Zhai,
- Abstract要約: EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
- 参考スコア(独自算出の注目度): 63.84216832544323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in understanding and leveraging long-range conversational memory, existing benchmarks still lack systematic evaluation of large language models(LLMs) across diverse memory dimensions, particularly in multi-session settings. In this work, we propose EvolMem, a new benchmark for assessing multi-session memory capabilities of LLMs and agent systems. EvolMem is grounded in cognitive psychology and encompasses both declarative and non-declarative memory, further decomposed into multiple fine-grained abilities. To construct the benchmark, we introduce a hybrid data synthesis framework that consists of topic-initiated generation and narrative-inspired transformations. This framework enables scalable generation of multi-session conversations with controllable complexity, accompanied by sample-specific evaluation guidelines. Extensive evaluation reveals that no LLM consistently outperforms others across all memory dimensions. Moreover, agent memory mechanisms do not necessarily enhance LLMs' capabilities and often exhibit notable efficiency limitations. Data and code will be released at https://github.com/shenye7436/EvolMem.
- Abstract(参考訳): 近年の長期会話メモリの理解と活用の進歩にもかかわらず、既存のベンチマークでは、特にマルチセッション設定において、様々なメモリ次元にわたる大規模言語モデル(LLM)の体系的な評価が欠けている。
本研究では,LLMとエージェントシステムのマルチセッションメモリ能力を評価するための新しいベンチマークであるEvolMemを提案する。
EvolMemは認知心理学に根ざし、宣言的記憶と非宣言的記憶の両方を包含し、さらに複数のきめ細かい能力に分解する。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
このフレームワークは、サンプル固有の評価ガイドラインを伴って、制御可能な複雑さを持つマルチセッション会話のスケーラブルな生成を可能にする。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
さらに、エージェントメモリ機構は必ずしもLSMの能力を高めておらず、しばしば顕著な効率の限界を示す。
データとコードはhttps://github.com/shenye7436/EvolMem.comで公開される。
関連論文リスト
- Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents [26.647812147336538]
LLMをベースとしたエージェントのメモリ能力を評価するため,より包括的なデータセットとベンチマークを構築した。
本データセットは,現実記憶と反射記憶を異なるレベルに含み,様々な対話的シナリオとして参加と観察を提案する。
本データセットに基づいて,LLMをベースとしたエージェントのメモリ能力を評価するベンチマーク,MemBenchを提案する。
論文 参考訳(メタデータ) (2025-06-20T10:09:23Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。