論文の概要: MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
- arxiv url: http://arxiv.org/abs/2602.16313v1
- Date: Wed, 18 Feb 2026 09:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.565409
- Title: MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
- Title(参考訳): MemoryArena: 依存型マルチセッションエージェントタスクにおけるベンチマークエージェントメモリ
- Authors: Zexue He, Yu Wang, Churan Zhi, Yuanzhe Hu, Tzu-Ping Chen, Lang Yin, Ze Chen, Tong Arthur Wu, Siru Ouyang, Zihan Wang, Jiaxin Pei, Julian McAuley, Yejin Choi, Alex Pentland,
- Abstract要約: メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
- 参考スコア(独自算出の注目度): 55.145729491377374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing evaluations of agents with memory typically assess memorization and action in isolation. One class of benchmarks evaluates memorization by testing recall of past conversations or text but fails to capture how memory is used to guide future decisions. Another class focuses on agents acting in single-session tasks without the need for long-term memory. However, in realistic settings, memorization and action are tightly coupled: agents acquire memory while interacting with the environment, and subsequently rely on that memory to solve future tasks. To capture this setting, we introduce MemoryArena, a unified evaluation gym for benchmarking agent memory in multi-session Memory-Agent-Environment loops. The benchmark consists of human-crafted agentic tasks with explicitly interdependent subtasks, where agents must learn from earlier actions and feedback by distilling experiences into memory, and subsequently use that memory to guide later actions to solve the overall task. MemoryArena supports evaluation across web navigation, preference-constrained planning, progressive information search, and sequential formal reasoning, and reveals that agents with near-saturated performance on existing long-context memory benchmarks like LoCoMo perform poorly in our agentic setting, exposing a gap in current evaluations for agents with memory.
- Abstract(参考訳): メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
ベンチマークの1つのクラスは、過去の会話やテキストのリコールをテストすることで暗記を評価するが、将来の決定を導くためにメモリがどのように使用されるかは把握できない。
別のクラスは、長期記憶を必要とせずに、シングルセッションタスクで作用するエージェントに焦点を当てている。
しかし、現実的な環境では、記憶と行動は密結合している:エージェントは環境と相互作用しながらメモリを取得し、その後、将来のタスクを解決するためにそのメモリに依存する。
この設定を捉えるため,マルチセッションメモリ-エージェント環境ループにおいて,エージェントメモリをベンチマークする統合評価ジムであるMemoryArenaを導入する。
このベンチマークは、明示的に相互依存のサブタスクを持つ人為的なエージェントタスクで構成されており、エージェントは、経験をメモリに蒸留することで、以前のアクションとフィードバックから学び、その後、そのメモリを使用して、後のアクションをガイドして全体のタスクを解決しなければならない。
MemoryArenaは、Webナビゲーション、優先制約付きプランニング、プログレッシブ情報検索、シーケンシャルなフォーマルな推論などの評価をサポートし、LoCoMoのような既存の長期メモリベンチマークでほぼ飽和したパフォーマンスのエージェントがエージェント設定で不十分なパフォーマンスを示し、メモリを持つエージェントに対する現在の評価のギャップを露呈する。
関連論文リスト
- Enhancing Conversational Agents via Task-Oriented Adversarial Memory Adaptation [64.69535903624033]
本稿では,タスク実行をシミュレートすることで,メモリ構築と更新をタスク目標と整合させるアダクティブメモリ適応機構を提案する。
AMAは、様々な既存のメモリシステムに統合することができ、LongダイアログベンチマークであるLoCoMoの広範な実験により、その効果が示されている。
論文 参考訳(メタデータ) (2026-01-29T14:42:34Z) - Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents [20.357475946040054]
textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。
リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
論文 参考訳(メタデータ) (2026-01-13T06:22:32Z) - Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - MemGen: Weaving Generative Latent Memory for Self-Evolving Agents [57.1835920227202]
本稿では,エージェントに人間的な認知機能を持たせる動的生成記憶フレームワークであるMemGenを提案する。
MemGenは、エージェントが推論を通して潜在記憶をリコールし、増大させ、記憶と認知の密接なサイクルを生み出すことを可能にする。
論文 参考訳(メタデータ) (2025-09-29T12:33:13Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation [39.69790911626182]
強化学習領域(RL)における多数のタスクにおいて、エージェントへのメモリの取り込みが不可欠である
メモリ」という用語は幅広い概念を包含しており、エージェントのメモリを検証するための統一的な方法論が欠如していることと相まって、エージェントのメモリ能力に関する誤った判断につながる。
本稿では,エージェントメモリタイプを正確に定義することで,RLにおけるメモリ概念の合理化を目指す。
論文 参考訳(メタデータ) (2024-12-09T14:34:31Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。