論文の概要: LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues
- arxiv url: http://arxiv.org/abs/2605.12493v1
- Date: Tue, 12 May 2026 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.082179
- Title: LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues
- Title(参考訳): LongMemEval-V2:経験豊富なコラーゲンに対する長期エージェント記憶の評価
- Authors: Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang,
- Abstract要約: LongMemEval-V2は、メモリシステムが、カスタマイズされた環境で知識のある同僚になるために必要な経験を得るのに役立つかどうかを評価するためのベンチマークである。
LME-V2には、Webエージェントの5つのコアメモリ能力をカバーする451の質問が含まれている。
AgentRunbook-Rは生の状態観察,イベント,戦略ノートのための知識プールを備えた,効率的なRAGベースのメモリであり,AgentRunbook-Cはトラジェクトリをファイルとして格納し,コードエージェントを起動して,拡張サンドボックスに証拠を収集する。
- 参考スコア(独自算出の注目度): 80.29362825271768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow knowledge, environment gotchas, and premise awareness. Questions are paired with history trajectories containing up to 500 trajectories and 115M tokens. We use a context gathering formulation: memory systems consume history trajectories and return compact evidence for downstream question answering. We propose a suite of two memory methods: AgentRunbook-R, an efficient RAG-based memory with knowledge pools for raw state observations, events, and strategy notes, and AgentRunbook-C, which stores trajectories as files and invokes a coding agent to gather evidence in an augmented sandbox. Experiments show that AgentRunbook-C achieves the best performance with 72.5% average accuracy, outperforming the strongest RAG baseline (48.5%) and the off-the-shelf coding agent baseline (69.3%). Despite the strong performance gains, coding agent based methods have high latency costs. While AgentRunbook-C advances the accuracy-latency Pareto frontier, substantial room for improvement remains. Together, these results establish LME-V2 as a challenging testbed for developing long-term memory systems for environment experience.
- Abstract(参考訳): 長期記憶は、インターフェイスの空き時間、状態のダイナミクス、ワークフロー、繰り返し失敗モードのリコールに依存する特殊なWeb環境のエージェントにとって不可欠である。
しかしながら、エージェントの既存のメモリベンチマークは、主にユーザ履歴、短いトレース、ダウンストリームタスクの成功に焦点を当てており、メモリシステムが環境固有のエクスペリエンスを効果的に内部化するかどうかを直接評価する方法をオープンにしている。
このギャップに対処するため,LongMemEval-V2 (LME-V2) を導入する。
LME-V2には、静的状態リコール、動的状態トラッキング、ワークフロー知識、環境把握、前提認識の5つのコアメモリ能力に関する、451の手作業による質問が含まれている。
質問は、500のトラジェクトリと1500万のトークンを含む履歴トラジェクトリと組み合わせられる。
メモリシステムは履歴トラジェクトリを消費し、下流の質問応答のためのコンパクトなエビデンスを返す。
AgentRunbook-Rは生の状態観察,イベント,戦略ノートのための知識プールを備えた,効率的なRAGベースのメモリであり,AgentRunbook-Cはトラジェクトリをファイルとして格納し,コードエージェントを起動して,拡張サンドボックスに証拠を収集する。
実験の結果、AgentRunbook-Cは72.5%の平均精度で最高のパフォーマンスを示し、RAGベースライン(48.5%)とオフ・ザ・シェルフコーディングエージェントベースライン(69.3%)を上回っている。
強力なパフォーマンス向上にもかかわらず、コーディングエージェントベースのメソッドは遅延コストが高い。
AgentRunbook-Cは精度の低いParetoフロンティアを前進させるが、改善の余地は残されている。
これらの結果から,LME-V2を長期記憶システム開発のための挑戦的なテストベッドとして確立した。
関連論文リスト
- MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Graph-based Agent Memory: Taxonomy, Techniques, and Applications [63.70340159016138]
メモリはLarge Language Model(LLM)ベースのエージェントの中核モジュールとして出現する。
さまざまなパラダイムの中でグラフは、関係依存をモデル化する本質的な能力のため、エージェントメモリの強力な構造として際立っている。
本調査では, エージェントメモリの総合的な検討について, グラフベースの観点から述べる。
論文 参考訳(メタデータ) (2026-02-05T13:49:05Z) - Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents [20.357475946040054]
textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。
リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
論文 参考訳(メタデータ) (2026-01-13T06:22:32Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [65.70584076918679]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。