論文の概要: EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective
- arxiv url: http://arxiv.org/abs/2605.18421v1
- Date: Mon, 18 May 2026 13:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.691482
- Title: EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective
- Title(参考訳): EvoMemBench: セルフ進化の視点からのベンチマークエージェントメモリ
- Authors: Yuyao Wang, Zhongjian Zhang, Mo Chi, Kaichi Yu, Yuhan Li, Miao Peng, Bing Tong, Chen Zhang, Yan Zhou, Jia Li,
- Abstract要約: EvoMemBenchは、メモリスコープとメモリ内容の2つの軸に沿って編成された統一ベンチマークである。
本稿では,15個の代表記憶法と強い長文ベースラインを標準プロトコルで比較する。
結果は、現在のメモリシステムは、まだ一般的な解決策には程遠いことを示している。
- 参考スコア(独自算出の注目度): 21.66000179149483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent benchmarks for Large Language Model (LLM) agents mainly evaluate reasoning, planning, and execution. However, memory is also essential for agents, as it enables them to store, update, and retrieve information over time. This ability remains under-evaluated, largely because existing benchmarks do not provide a systematic way to assess memory mechanisms. In this paper, we study agent memory from a self-evolving perspective and introduce EvoMemBench, a unified benchmark organized along two axes: memory scope (in-episode vs. cross-episode) and memory content (knowledge-oriented vs. execution-oriented). We compare 15 representative memory methods with strong long-context baselines under a standardized protocol. Results show that current memory systems are still far from a general solution: long-context baselines remain highly competitive, memory helps most when the current context is insufficient or tasks are difficult, and no single memory form works consistently across all settings. Retrieval-based methods remain strong for knowledge-intensive settings, whereas procedural and long-term memory methods are more effective for execution-oriented tasks when their stored experience matches the task structure. We hope EvoMemBench facilitates future research on more effective memory systems for LLM-based agents. Our code is available at https://github.com/DSAIL-Memory/EvoMemBench.
- Abstract(参考訳): 最近のLLM(Large Language Model)エージェントのベンチマークは、主に推論、計画、実行を評価している。
しかし、メモリはエージェントにとって必須であり、時間とともに情報を保存し、更新し、取得することができる。
既存のベンチマークでは、メモリメカニズムを体系的に評価する手段が提供されていないため、この能力は未評価のままである。
本稿では,エージェントメモリを自己進化の観点から研究し,メモリスコープ(エポソード内とクロスエポソード内)とメモリコンテント(知識指向と実行指向)の2つの軸に沿って構成された統一ベンチマークであるEvoMemBenchを紹介する。
本稿では,15個の代表記憶法と強い長文ベースラインを標準プロトコルで比較する。
長いコンテキストのベースラインは競争力が高く、メモリは現在のコンテキストが不十分でタスクが難しい場合や、すべての設定で一貫したメモリフォームが動作しない場合に最も役立ちます。
検索ベースの手法は、知識集約的な設定では強いままであるが、手続き的および長期記憶的手法は、ストアドエクスペリエンスがタスク構造と一致する場合に、実行指向のタスクに対してより効果的である。
EvoMemBench が LLM ベースのエージェントのためのより効率的なメモリシステムの研究を促進することを願っている。
私たちのコードはhttps://github.com/DSAIL-Memory/EvoMemBench.comで利用可能です。
関連論文リスト
- Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - According to Me: Long-Term Personalized Referential Memory QA [27.402232752643275]
ATM-Benchはマルチモーダル、マルチソースパーソナライズされた参照メモリQAのための最初のベンチマークである。
ガイドメモリ(SGM)は、異なるソースから派生したメモリアイテムを構造的に表現する。
ATM-Bench-Hardセットでは性能が(20%の精度で)低いことが分かりました。
論文 参考訳(メタデータ) (2026-03-02T15:42:29Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Graph-based Agent Memory: Taxonomy, Techniques, and Applications [63.70340159016138]
メモリはLarge Language Model(LLM)ベースのエージェントの中核モジュールとして出現する。
さまざまなパラダイムの中でグラフは、関係依存をモデル化する本質的な能力のため、エージェントメモリの強力な構造として際立っている。
本調査では, エージェントメモリの総合的な検討について, グラフベースの観点から述べる。
論文 参考訳(メタデータ) (2026-02-05T13:49:05Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。