論文の概要: AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
- arxiv url: http://arxiv.org/abs/2602.22769v1
- Date: Thu, 26 Feb 2026 08:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.609671
- Title: AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
- Title(参考訳): AMA-Bench: エージェントアプリケーションのための長期メモリ評価
- Authors: Yujie Zhao, Boqin Yuan, Junbo Huang, Haocheng Yuan, Zhongming Yu, Haozhou Xu, Lanxiang Hu, Abhilash Shankarampeta, Zimeng Huang, Wentao Ni, Yuandong Tian, Jishen Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、ますます複雑なアプリケーションにおいて自律的なエージェントとしてデプロイされる。
既存のベンチマークは主に対話中心のヒューマンエージェントインタラクションに焦点を当てている。
因果グラフとツール拡張検索を備えたメモリシステムであるAMA-Agentを提案する。
- 参考スコア(独自算出の注目度): 34.74409546347656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is critical for achieving strong performance. However, a significant gap exists between practical applications and current evaluation standards for agent memory: existing benchmarks primarily focus on dialogue-centric, human-agent interactions. In reality, agent memory consists of a continuous stream of agent-environment interactions that are primarily composed of machine-generated representations. To bridge this gap, we introduce AMA-Bench (Agent Memory with Any length), which evaluates long-horizon memory for LLMs in real agentic applications. It features two key components: (1) a set of real-world agentic trajectories across representative agentic applications, paired with expert-curated QA, and (2) a set of synthetic agentic trajectories that scale to arbitrary horizons, paired with rule-based QA. Our comprehensive study shows that existing memory systems underperform on AMA-Bench primarily because they lack causality and objective information and are constrained by the lossy nature of similarity-based retrieval employed by many memory systems. To address these limitations, we propose AMA-Agent, an effective memory system featuring a causality graph and tool-augmented retrieval. Our results demonstrate that AMA-Agent achieves 57.22% average accuracy on AMA-Bench, surpassing the strongest memory system baselines by 11.16%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます複雑なアプリケーションにおいて自律的なエージェントとしてデプロイされる。
既存のベンチマークは主に対話中心の人間-エージェントのインタラクションに焦点を当てている。
実際、エージェントメモリは、主に機械生成表現からなるエージェント-環境相互作用の連続ストリームで構成されている。
このギャップを埋めるために、実エージェントアプリケーションでLLMの長期メモリを評価するAMA-Bench(Agent Memory with Any length)を導入する。
1) 代表的なエージェント・アプリケーションにまたがる実世界のエージェント・トラジェクトリ(エージェント・トラジェクトリ)と,(2) ルール・ベースのQA(エージェント・トラジェクトリ)のセット(エージェント・トラジェクトリ)である。
本研究は,既存のメモリシステムがAMA-Benchで性能を低下させる要因として,因果性や客観的性が欠如しており,多くのメモリシステムで使用されている類似性に基づく検索の損失の性質に制約されていることを示唆する。
これらの制約に対処するために,因果グラフとツール拡張検索を備えた効果的なメモリシステムであるAMA-Agentを提案する。
その結果、AMA-AgentはAMA-Bench上で57.22%の平均精度を達成し、最強のメモリシステムのベースラインを11.16%上回った。
関連論文リスト
- MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey [211.01908189012184]
今年、何百もの論文が公開されたメモリは、ユーティリティギャップを埋めるための重要なソリューションとして現れます。
ファンデーションエージェントのメモリを3次元に統一したビューを提供する。
次に、異なるエージェントトポロジの下でメモリがどのようにインスタンス化され、操作されるかを分析する。
論文 参考訳(メタデータ) (2026-01-14T07:38:38Z) - Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning [41.94295877935867]
メモリは、エージェントが時間的および空間的依存関係を持つ複雑なタスクに対処できるようにするために不可欠である。
多くの強化学習アルゴリズムにはメモリが組み込まれているが、エージェントのメモリ能力を評価するための普遍的なベンチマークがない。
メモリRLの総合ベンチマークであるMIKASAを紹介する。
論文 参考訳(メタデータ) (2025-02-14T20:46:19Z) - A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。
LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。
エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文 参考訳(メタデータ) (2024-04-21T01:49:46Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。