論文の概要: Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory
- arxiv url: http://arxiv.org/abs/2605.15384v1
- Date: Thu, 14 May 2026 20:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.086931
- Title: Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory
- Title(参考訳): 1スコアは十分か? : LLMメモリの逐次進化の評価を再考する
- Authors: Songwei Dong, Zihan Chen, Chengshuai Shi, Peng Wang, Jundong Li, Cong Shen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
- 参考スコア(独自算出の注目度): 50.857546269660276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory plays a central role in enabling large language models (LLMs) to operate over sequential tasks by accumulating and reusing experience over time. However, existing evaluations of LLM memory mostly rely on aggregate metrics such as final hold-out accuracy or cumulative online performance, which can obscure critical failure modes such as forgetting and negative transfer. In this paper, we introduce SeqMem-Eval, a diagnostic evaluation framework for sequentially evolving LLM memory. Drawing inspiration from continual learning, it targets a test-time setting in which memory is external, prompt-mediated, and updated without modifying model parameters. Rather than focusing only on final performance, SeqMem-Eval evaluates how memory states evolve, generalize, consolidate experience, and retain useful information during sequential inference. Specifically, it measures online utility, hold-out generalization, backward transfer, and forgetting, providing a finer-grained view of memory quality. Through extensive experiments across diverse tasks and memory methods, we show that higher final or cumulative accuracy does not necessarily imply better memory quality: many methods exhibit strong performance gains while suffering from substantial forgetting or negative transfer. Moreover, different memory designs exhibit distinct trade-offs between adaptability and stability that remain invisible under standard evaluation metrics.
- Abstract(参考訳): メモリは、大規模な言語モデル(LLM)が、時間の経過とともに経験を蓄積し再利用することによって、シーケンシャルなタスクを操作できるようにする上で、中心的な役割を果たす。
しかし、LCMメモリの既存の評価は、最終的なホールドアウト精度や累積オンライン性能などの集計基準に大きく依存しており、これは、忘れたり、負の転送といった致命的な障害モードを曖昧にする可能性がある。
本稿では,LCMメモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
継続的な学習からインスピレーションを得て、モデルパラメータを変更することなく、メモリが外部にあり、プロンプト介在し、更新されるテスト時間設定をターゲットにしている。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
具体的には、オンラインユーティリティ、ホールドアウト一般化、後方転送、および忘れを計測し、メモリ品質のよりきめ細かいビューを提供する。
多様なタスクやメモリメソッドにわたる広範な実験を通して、高い最終精度や累積精度が必ずしもメモリ品質を向上させるとは限らないことが示される。
さらに、異なるメモリ設計は、標準評価基準の下では見えない適応性と安定性の間に明確なトレードオフを示す。
関連論文リスト
- MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning [44.94110361062394]
実世界の意思決定は、安定かつ適応性のあるメモリに依存する。
既存の強化学習ベンチマークとメモリ拡張エージェントは、主に保持に焦点を当てている。
部分的な可観測性の下で連続的なメモリ更新を明示的にテストするベンチマークを導入する。
論文 参考訳(メタデータ) (2026-01-21T15:27:23Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents [26.647812147336538]
LLMをベースとしたエージェントのメモリ能力を評価するため,より包括的なデータセットとベンチマークを構築した。
本データセットは,現実記憶と反射記憶を異なるレベルに含み,様々な対話的シナリオとして参加と観察を提案する。
本データセットに基づいて,LLMをベースとしたエージェントのメモリ能力を評価するベンチマーク,MemBenchを提案する。
論文 参考訳(メタデータ) (2025-06-20T10:09:23Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。