論文の概要: MEME: Multi-entity & Evolving Memory Evaluation
- arxiv url: http://arxiv.org/abs/2605.12477v1
- Date: Tue, 12 May 2026 17:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.074641
- Title: MEME: Multi-entity & Evolving Memory Evaluation
- Title(参考訳): MEME:マルチエンタリティとメモリ評価の進化
- Authors: Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh,
- Abstract要約: MEMEは、マルチエンタリティと進化する軸によって定義される全空間にまたがる6つのタスクを定義している。
3つの記憶パラダイムにまたがる6つの記憶システムの評価。
デフォルト設定の下では、すべてのシステムが依存性の推論で崩壊しているのが分かります。
- 参考スコア(独自算出の注目度): 76.57263966646404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.
- Abstract(参考訳): LLMベースのエージェントは、多くのセッションにまたがって情報を保存し、更新し、推論しなければならない永続的な環境でますます運用される。
以前のベンチマークではシングルエンタリティ更新のみを評価していたが、MEMEでは、マルチエンタリティと進化する軸によって定義された全空間にまたがる6つのタスクを定義している。
100個の制御されたエピソードで3つのメモリパラダイムにまたがる6つのメモリシステムを評価すると、静的検索性能が十分であるにもかかわらず、すべてのシステムがデフォルト設定(Cascade: 3%、Absence: 1%、平均精度: 1%)で依存推論で崩壊することがわかった。
プロンプト最適化、より深い検索、フィラーノイズの低減、そして最も強力なLCMはこのギャップを埋めることに失敗した。
Claude Opus 4.7 を内部 LLM として組み合わせたファイルベースのエージェントだけが部分的にギャップを埋めるが、ベースラインコストは ~70 倍になり、現在、クロージャは大規模では実用的でない構成に依存していることを示している。
コードとデータはプロジェクトのページで公開されている。
関連論文リスト
- MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs [47.66730296440261]
我々は,新たなメモリが生成されるたびに記憶が取得されたことを記録した証明DAGを通じて,クレジットを後方に伝播するMemQを紹介した。
6つのベンチマークで、MemQは、一般化評価とランタイム学習の6つすべてで最高成功率を達成した。
さらに、$と$がEC-MDP構造とどのように相互作用するかを研究し、パラメータ選択と将来の研究の原則的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-05-08T18:30:24Z) - GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0) [56.81743709880371]
Long-Horizon Large Language Model (LLM) エージェントは、コンテキストによって根本的に制限される。
長い水平性能は、文脈長ではなく、有限の文脈予算内で意思決定関連情報がどれだけ維持されているかによって決定される。
我々は、情報密度とコンテキストの1つの原理に基づいて構築された汎用的自己進化型LLMエージェントシステムであるGenericAgent(GA)を提案する。
論文 参考訳(メタデータ) (2026-04-18T17:59:15Z) - ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces [17.202580606345666]
生産性タスクを自動化するために、大規模言語モデル(LLM)エージェントがますますデプロイされる。
既存のベンチマークは単純化された環境に依存しており、現実的なマルチサービス環境をキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-06T21:09:06Z) - Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents [0.0]
我々は,蓄積したLLM理解をバージョン管理状態として扱うシステムであるコンテキスト記憶仮想化(CMV)を提案する。
CMVはセッション履歴を、正式に定義されたスナップショット、ブランチ、トリムプリミティブを備えたDAG(Directed Acyclic Graph)としてモデル化する。
シングルユーザによるケーススタディ評価では、トリミングが迅速なキャッシュの下で経済的に有効であることが示されている。
論文 参考訳(メタデータ) (2026-02-25T20:52:52Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。