論文の概要: Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations
- arxiv url: http://arxiv.org/abs/2602.19320v1
- Date: Sun, 22 Feb 2026 19:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.585647
- Title: Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations
- Title(参考訳): エージェント記憶の解剖:分類学と実証分析による評価とシステム限界
- Authors: Dongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li,
- Abstract要約: エージェントメモリシステムにより、大きな言語モデル(LLM)エージェントは長時間の相互作用で状態を維持できる。
既存のベンチマークは、しばしば過小評価され、評価メトリクスはセマンティックユーティリティと不一致であり、バックボーンモデル間でパフォーマンスは著しく異なる。
本調査では, エージェントメモリの構造解析を行った。
- 参考スコア(独自算出の注目度): 6.566696478685466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.
- Abstract(参考訳): エージェントメモリシステムにより、大きな言語モデル(LLM)エージェントが長い相互作用をまたいで状態を維持でき、固定されたコンテキストウインドウを超えて長期の推論とパーソナライゼーションをサポートする。
既存のベンチマークはしばしば過小評価され、評価指標はセマンティックユーティリティと不一致であり、パフォーマンスはバックボーンモデル間で大きく異なり、システムレベルのコストはしばしば見過ごされる。
本調査では, エージェントメモリの構造解析を行った。
まず,4つのメモリ構造に基づくMAGシステムの簡潔な分類法を提案する。
そして、ベンチマーク飽和効果、計量妥当性と判定感度、バックボーン依存精度、メモリ保守に伴うレイテンシとスループットのオーバーヘッドなど、現在のシステムを制限する重要な痛点を解析する。
メモリ構造を経験的制約に接続することにより、現在のエージェントメモリシステムが理論上の保証を過小評価する理由を明らかにし、より信頼性の高い評価とスケーラブルなシステム設計のための方向性を概説する。
関連論文リスト
- Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey [211.01908189012184]
今年、何百もの論文が公開されたメモリは、ユーティリティギャップを埋めるための重要なソリューションとして現れます。
ファンデーションエージェントのメモリを3次元に統一したビューを提供する。
次に、異なるエージェントトポロジの下でメモリがどのようにインスタンス化され、操作されるかを分析する。
論文 参考訳(メタデータ) (2026-01-14T07:38:38Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level [38.24989792739013]
本稿では,帰納的アサーション検証を中心とした診断ベンチマークであるRepoReasonを紹介する。
本研究では, 環境を意味として利用し, 地盤構造を再現する実行駆動型突然変異フレームワークを実装した。
我々の発見は、次世代のエージェントソフトウェアエンジニアリングを最適化するための、詳細なホワイトボックスの洞察を提供する。
論文 参考訳(メタデータ) (2026-01-07T09:22:28Z) - PISA: A Pragmatic Psych-Inspired Unified Memory System for Enhanced AI Agency [50.712873697511206]
既存の作業は、多種多様なタスクへの適応性に欠けることが多く、AIエージェントメモリの構成的およびタスク指向の役割を見落としている。
PISAは,メモリを構築的かつ適応的なプロセスとして扱う,実践的でサイコにインスパイアされた統合メモリシステムである。
既存のLOCOMOベンチマークと新たに提案したデータ解析タスクのAggQAベンチマークに基づいて,PISAが適応性と長期的知識保持を大幅に向上させることで,新たな最先端技術を設定することを確認した。
論文 参考訳(メタデータ) (2025-10-12T10:34:35Z) - Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies [0.0]
本調査は,視覚的推論を5つの主要なタイプ(関係性,象徴性,時間性,因果性,共通性)に分類することを目的とする。
機能的正当性,構造的整合性,因果妥当性を評価し,その限界を一般化可能性,説明力の観点から批判的に分析する。
論文 参考訳(メタデータ) (2025-08-14T10:53:35Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Formalizing and Evaluating Requirements of Perception Systems for
Automated Vehicles using Spatio-Temporal Perception Logic [25.070876549371693]
本研究では,空間的および時間的演算子を用いた知覚データに対する推論を可能にするロジックを提案する。
STPLの大きな利点の1つは、知覚システムの機能性能の基本的な正当性チェックを容易にすることである。
論文 参考訳(メタデータ) (2022-06-29T02:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。