論文の概要: Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline
- arxiv url: http://arxiv.org/abs/2606.04315v1
- Date: Wed, 03 Jun 2026 00:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.447873
- Title: Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline
- Title(参考訳): エージェントメモリシステムのクロスセクセリオ一般性を探る:診断と強力なベースライン
- Authors: Zhikai Chen, Jialiang Gu, Junyu Yin, Xianxuan Long, Shenglai Zeng, Xiaoze Liu, Kai Guo, Keren Zhou, Jiliang Tang,
- Abstract要約: 検索問題に対する8つのメモリシステムとエージェントハーネスを再検討する。
自動管理ツールインタフェースを備えたエージェントメモリハーネスであるAutoMEMにおいて、この知見をインスタンス化する。
- 参考スコア(独自算出の注目度): 39.29817461808327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.
- Abstract(参考訳): LLMエージェントは、コンテキストウィンドウを上回る履歴を蓄積し、メモリシステムに関する文献の増大を動機付けている。
しかし、既存のほとんどの設計は単一のシナリオ(マルチセッションチャットまたは単一のトラジェクトリフォーマット)に調整されており、デプロイで遭遇する異質なトラジェクトリにまたがる一般化の証拠はほとんどない。
我々は,8つのメモリシステムと探索問題に対するエージェントハーネスを,シングルターンQA,マルチセッションチャット,エージェント・トラジェクトリQA,メモリストレステスト,長期エージェントタスクの5つのシナリオで再検討する。
ツールコールを介してフラットなテキストファイルストレージを自己管理するハーネスは、最高のクロスタスクランキングを達成し、メモリ性能は、固定パイプラインの背後にある受動的ストアではなく、エージェントにストレージと検索をアクティブに制御することによるものであることを示唆している。
評価したシステム間で最高のクロスシナリオを実現するセルフマネージドツールインタフェースを備えたエージェントメモリハーネスであるAutoMEMにおいて、この知見をインスタンス化する。
関連論文リスト
- MemGym: a Long-Horizon Memory Environment for LLM Agents [69.79226770543049]
本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。
MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離すメモリアイソレーションスコアを報告している。
MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
論文 参考訳(メタデータ) (2026-05-20T07:25:33Z) - LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues [80.29362825271768]
LongMemEval-V2は、メモリシステムが、カスタマイズされた環境で知識のある同僚になるために必要な経験を得るのに役立つかどうかを評価するためのベンチマークである。
LME-V2には、Webエージェントの5つのコアメモリ能力をカバーする451の質問が含まれている。
AgentRunbook-Rは生の状態観察,イベント,戦略ノートのための知識プールを備えた,効率的なRAGベースのメモリであり,AgentRunbook-Cはトラジェクトリをファイルとして格納し,コードエージェントを起動して,拡張サンドボックスに証拠を収集する。
論文 参考訳(メタデータ) (2026-05-12T17:59:34Z) - MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [52.29303869050117]
メモリ拡張LDMエージェントは、長期の相互作用をサポートするために外部メモリバンクを保持する。
MemMAはプラグアンドプレイのマルチエージェントフレームワークで、前方と後方の両方の経路に沿ってメモリサイクルを調整する。
論文 参考訳(メタデータ) (2026-03-19T10:15:59Z) - AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications [34.74409546347656]
大規模言語モデル(LLM)は、ますます複雑なアプリケーションにおいて自律的なエージェントとしてデプロイされる。
既存のベンチマークは主に対話中心のヒューマンエージェントインタラクションに焦点を当てている。
因果グラフとツール拡張検索を備えたメモリシステムであるAMA-Agentを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:59:31Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。