論文の概要: MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
- arxiv url: http://arxiv.org/abs/2510.01353v1
- Date: Wed, 01 Oct 2025 18:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.820506
- Title: MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
- Title(参考訳): MEMTRACK:マルチプラットフォーム動的エージェント環境における長期記憶と状態追跡の評価
- Authors: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang,
- Abstract要約: MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
- 参考スコア(独自算出の注目度): 6.12783571098263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings
- Abstract(参考訳): コンテキストとメモリのベンチマークに関する最近の研究は、主に会話のインスタンスに焦点を当てているが、動的エンタープライズ環境におけるメモリ評価の必要性は、その効果的なアプリケーションに不可欠である。
マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するためのベンチマークであるMEMTRACKを紹介する。
MEMTRACKは、Slack、Linear、Gitなどの複数のコミュニケーションおよび生産性プラットフォーム間で非同期イベントを統合することで、現実的な組織ワークフローをモデル化する。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報、潜在的なコードベース/ファイルシステムの理解と探索を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
その結果、我々のベンチマークは、取得、選択、競合解決などのメモリ機能をテストする。
我々は、手動のエキスパート駆動設計とスケーラブルなエージェントベース合成の両方を通してMEMTRACKデータセットをキュレートし、実世界のソフトウェア開発プロセスに根ざした生態学的に有効なシナリオを生成する。
単純なQA性能を超えたメモリ機構の有効性を捉えるために, 精度, 効率, 冗長性に関する関連する指標を導入する。
SoTA LLMとメモリバックエンドをまたいだ実験は、長期にわたるメモリ利用、クロスプラットフォーム依存関係の処理、矛盾の解消における課題を明らかにしている。
特に、最高性能の GPT-5 モデルは MEMTRACK 上で 60 % の正確性スコアしか得られない。
この研究は、メモリ拡張エージェントの評価研究を進めるための拡張可能なフレームワークを提供し、既存の会話設定に焦点をあて、複雑な組織環境でのマルチエージェント、マルチプラットフォームメモリベンチマークのステージを設定する。
関連論文リスト
- Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。