論文の概要: Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
- arxiv url: http://arxiv.org/abs/2507.05257v1
- Date: Mon, 07 Jul 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.564302
- Title: Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
- Title(参考訳): インクリメンタルマルチTurnインタラクションによるLLMエージェントのメモリ評価
- Authors: Yuanzhe Hu, Yu Wang, Julian McAuley,
- Abstract要約: メモリ機構を持つエージェントをメモリエージェントと呼ぶ。
本稿では,メモリエージェントに不可欠な4つのコア能力,すなわち,正確な検索,テスト時間学習,長距離理解,コンフリクト解決の4つを同定する。
既存のデータセットは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
既存のベンチマークでは4つの能力をすべてカバーしていないため、メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介します。
- 参考スコア(独自算出の注目度): 19.51727855436013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent benchmarks for Large Language Model (LLM) agents primarily focus on evaluating reasoning, planning, and execution capabilities, while another critical component-memory, encompassing how agents memorize, update, and retrieve long-term information-is under-evaluated due to the lack of benchmarks. We term agents with memory mechanisms as memory agents. In this paper, we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution. Existing datasets either rely on limited context lengths or are tailored for static, long-context settings like book-based QA, which do not reflect the interactive, multi-turn nature of memory agents that incrementally accumulate information. Furthermore, no existing benchmarks cover all four competencies. Therefore, we introduce MemoryAgentBench, a new benchmark specifically designed for memory agents. Our benchmark combines reformulated existing datasets with newly constructed ones, covering the above four memory competencies, providing a systematic and challenging testbed for assessing memory quality. We evaluate a diverse set of memory agents, ranging from simple context-based and retrieval-augmented generation (RAG) systems to advanced agents with external memory modules and tool integration. Empirical results reveal that current methods fall short of mastering all four competencies, underscoring the need for further research into comprehensive memory mechanisms for LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの最近のベンチマークは、主に推論、計画、実行能力の評価に重点を置いている。
メモリ機構を持つエージェントをメモリエージェントと呼ぶ。
本稿では,メモリエージェントに不可欠な4つのコア能力,すなわち,正確な検索,テスト時間学習,長距離理解,コンフリクト解決の4つを同定する。
既存のデータセットは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
さらに、既存のベンチマークでは4つの能力をすべてカバーしていない。
そこで,メモリエージェント用に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
我々のベンチマークでは、既存のデータセットを新たに構築したデータセットと組み合わせ、上記の4つのメモリ能力をカバーすることで、メモリ品質を評価するための体系的で挑戦的なテストベッドを提供する。
我々は、シンプルなコンテキストベースおよび検索拡張生成(RAG)システムから、外部メモリモジュールとツール統合を備えた高度なエージェントまで、多様なメモリエージェント群を評価する。
実験の結果、現在の手法は4つの能力全てを習得するに足りず、LCMエージェントの包括的な記憶機構のさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- MemOS: A Memory OS for AI System [115.28320211684103]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents [26.647812147336538]
LLMをベースとしたエージェントのメモリ能力を評価するため,より包括的なデータセットとベンチマークを構築した。
本データセットは,現実記憶と反射記憶を異なるレベルに含み,様々な対話的シナリオとして参加と観察を提案する。
本データセットに基づいて,LLMをベースとしたエージェントのメモリ能力を評価するベンチマーク,MemBenchを提案する。
論文 参考訳(メタデータ) (2025-06-20T10:09:23Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。
MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning [41.94295877935867]
メモリは、エージェントが時間的および空間的依存関係を持つ複雑なタスクに対処できるようにするために不可欠である。
多くの強化学習アルゴリズムにはメモリが組み込まれているが、エージェントのメモリ能力を評価するための普遍的なベンチマークがない。
メモリRLの総合ベンチマークであるMIKASAを紹介する。
論文 参考訳(メタデータ) (2025-02-14T20:46:19Z) - On the Structural Memory of LLM Agents [20.529239764968654]
メモリは、大規模言語モデル(LLM)ベースのエージェントが複雑で長期的な相互作用を行えるようにするための重要な役割を担っている。
本稿では,メモリ構造とメモリ検索手法がLCMエージェントの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-12-17T04:30:00Z) - Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation [39.69790911626182]
強化学習領域(RL)における多数のタスクにおいて、エージェントへのメモリの取り込みが不可欠である
メモリ」という用語は幅広い概念を包含しており、エージェントのメモリを検証するための統一的な方法論が欠如していることと相まって、エージェントのメモリ能力に関する誤った判断につながる。
本稿では,エージェントメモリタイプを正確に定義することで,RLにおけるメモリ概念の合理化を目指す。
論文 参考訳(メタデータ) (2024-12-09T14:34:31Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。