論文の概要: Mem-T: Densifying Rewards for Long-Horizon Memory Agents
- arxiv url: http://arxiv.org/abs/2601.23014v1
- Date: Fri, 30 Jan 2026 14:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.496451
- Title: Mem-T: Densifying Rewards for Long-Horizon Memory Agents
- Title(参考訳): Mem-T:長軸記憶剤のデンプニング・リワード
- Authors: Yanwei Yue, Guibin Zhang, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang,
- Abstract要約: 我々は,動的更新やストリーミング入力によるマルチターン検索を行うために,軽量な階層型メモリデータベースと対話する自律メモリエージェントMem-Tを紹介する。
また,木誘導型強化学習フレームワークであるMoT-GRPOを提案する。
- 参考スコア(独自算出の注目度): 23.19373149519922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory agents, which depart from predefined memory-processing pipelines by endogenously managing the processing, storage, and retrieval of memories, have garnered increasing attention for their autonomy and adaptability. However, existing training paradigms remain constrained: agents often traverse long-horizon sequences of memory operations before receiving sparse and delayed rewards, which hinders truly end-to-end optimization of memory management policies. To address this limitation, we introduce Mem-T, an autonomous memory agent that interfaces with a lightweight hierarchical memory database to perform dynamic updates and multi-turn retrieval over streaming inputs. To effectively train long-horizon memory management capabilities, we further propose MoT-GRPO, a tree-guided reinforcement learning framework that transforms sparse terminal feedback into dense, step-wise supervision via memory operation tree backpropagation and hindsight credit assignment, thereby enabling the joint optimization of memory construction and retrieval. Extensive experiments demonstrate that Mem-T is (1) high-performing, surpassing frameworks such as A-Mem and Mem0 by up to $14.92\%$, and (2) economical, operating on a favorable accuracy-efficiency Pareto frontier and reducing inference tokens per query by $\sim24.45\%$ relative to GAM without sacrificing performance.
- Abstract(参考訳): メモリエージェントは、処理、記憶、記憶の検索を不均一に管理することで、事前に定義されたメモリ処理パイプラインから離れており、その自律性と適応性に対する関心が高まっている。
しかし、既存のトレーニングパラダイムは制約が残っており、エージェントはスパースと遅延した報酬を受け取る前に、しばしばメモリ操作の長い水平シーケンスを横切るため、真のエンドツーエンドのメモリ管理ポリシーの最適化を妨げます。
この制限に対処するため,我々はMem-Tを紹介した。Mem-Tは軽量な階層型メモリデータベースとインタフェースを持ち,動的更新とストリーミング入力によるマルチターン検索を行う。
さらに,長期記憶管理能力を効果的に訓練するために,メモリ操作ツリーのバックプロパゲーションと後からのクレジット割り当てを通じて,スパース端末からのフィードバックを高密度で段階的に監視する木誘導強化学習フレームワークであるMoT-GRPOを提案し,メモリ構築と検索の協調最適化を可能にする。
大規模な実験では、(1) A-MemやMem0といったフレームワークを最大14.92ドルまで上回り、(2)経済的に、好適な精度効率のParetoフロンティアで運用し、パフォーマンスを犠牲にすることなく、クエリあたりの推論トークンを$\sim24.45セントで削減している。
関連論文リスト
- MemRec: Collaborative Memory-Augmented Agentic Recommender System [57.548438733740504]
我々はメモリ管理から推論をアーキテクチャ的に分離するフレームワークであるMemRecを提案する。
MemRecは動的コラボレーティブメモリグラフを管理する専用のLM_Memを導入した。
4つのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-13T18:51:16Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。