論文の概要: Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents
- arxiv url: http://arxiv.org/abs/2601.19935v1
- Date: Tue, 13 Jan 2026 06:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.56147
- Title: Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents
- Title(参考訳): Mem2ActBench:タスク指向自律エージェントの長期記憶利用評価ベンチマーク
- Authors: Yiting Shen, Kun Li, Wei Zhou, Songlin Hu,
- Abstract要約: textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。
リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
- 参考スコア(独自算出の注目度): 20.357475946040054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents are increasingly deployed for complex, tool-based tasks where long-term memory is critical to driving actions. Existing benchmarks, however, primarily test a angent's ability to passively retrieve isolated facts in response to explicit questions. They fail to evaluate the more crucial capability of actively applying memory to execute tasks. To address this gap, we introduce \textsc{Mem2ActBench}, a benchmark for evaluating whether agents can proactively leverage long-term memory to execute tool-based actions by selecting appropriate tools and grounding their parameters. The benchmark simulates persistent assistant usage, where users mention the same topic across long, interrupted interactions and expect previously established preferences and task states to be implicitly applied. We build the dataset with an automated pipeline that merges heterogeneous sources (ToolACE, BFCL, Oasst1), resolves conflicts via consistency modeling, and synthesizes 2,029 sessions with 12 user--assistant--tool turns on average. From these memory chains, a reverse-generation method produces 400 tool-use tasks, with human evaluation confirming 91.3\% are strongly memory-dependent. Experiments on seven memory frameworks show that current systems remain inadequate at actively utilizing memory for parameter grounding, highlighting the need for more effective approaches to evaluate and improve memory application in task execution.
- Abstract(参考訳): 大きな言語モデル(LLM)ベースのエージェントは、長期的なメモリが動作の駆動に不可欠である複雑なツールベースのタスクに対して、ますますデプロイされる。
しかし、既存のベンチマークは主に、明示的な質問に応答して孤立した事実を受動的に回収するアンジェントの能力をテストする。
彼らは、タスクの実行にメモリを積極的に適用する、より重要な能力を評価することができません。
このギャップに対処するために、エージェントがツールベースのアクションを実行するために、適切なツールを選択し、パラメータをグラウンド化することで、長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである \textsc{Mem2ActBench} を導入する。
このベンチマークは永続的なアシスタントの使用をシミュレートし、ユーザが同じトピックを長く中断されたインタラクションにわたって言及し、以前に確立された好みやタスク状態が暗黙的に適用されることを期待する。
ヘテロジニアスソース(ToolACE, BFCL, Oasst1)をマージする自動パイプラインでデータセットを構築し,一貫性モデリングによるコンフリクトを解決し,12のユーザ-アシスト-ツールターンで2,029のセッションを合成する。
これらのメモリチェーンから、リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価では91.3\%が強いメモリ依存であることを確認した。
7つのメモリフレームワークの実験では、現在のシステムはパラメータグラウンディングにメモリを積極的に活用するには不十分であり、タスク実行におけるメモリアプリケーションの評価と改善のためのより効果的なアプローチの必要性を強調している。
関連論文リスト
- AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。