論文の概要: Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management
- arxiv url: http://arxiv.org/abs/2601.08435v1
- Date: Tue, 13 Jan 2026 11:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.162792
- Title: Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management
- Title(参考訳): 長期記憶管理のためのファインメム/ファイングラインドフィードバックアライメント
- Authors: Weitao Ma, Xiaocheng Feng, Lei Huang, Xiachong Feng, Zhanyu Ma, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Bing Qin,
- Abstract要約: Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 63.48041801851891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective memory management is essential for large language model agents to navigate long-horizon tasks. Recent research has explored using Reinforcement Learning to develop specialized memory manager agents. However, existing approaches rely on final task performance as the primary reward, which results in severe reward sparsity and ineffective credit assignment, providing insufficient guidance for individual memory operations. To this end, we propose Fine-Mem, a unified framework designed for fine-grained feedback alignment. First, we introduce a Chunk-level Step Reward to provide immediate step-level supervision via auxiliary chunk-specific question answering tasks. Second, we devise Evidence-Anchored Reward Attribution to redistribute global rewards by anchoring credit to key memory operations, based on the specific memory items utilized as evidence in reasoning. Together, these components enable stable policy optimization and align local memory operations with the long-term utility of memory. Experiments on Memalpha and MemoryAgentBench demonstrate that Fine-Mem consistently outperforms strong baselines, achieving superior success rates across various sub-tasks. Further analysis reveals its adaptability and strong generalization capabilities across diverse model configurations and backbones.
- Abstract(参考訳): 大規模な言語モデルエージェントが長い水平タスクをナビゲートするためには、効果的なメモリ管理が不可欠である。
近年,Reinforcement Learning を用いた特殊記憶管理エージェントの開発が研究されている。
しかし、既存の手法では、主要な報酬として最終タスクのパフォーマンスに依存しており、それによって深刻な報酬の分散と不効率なクレジット割り当てが発生し、個々のメモリ操作のガイダンスが不十分である。
この目的のために我々は、きめ細かいフィードバックアライメントのために設計された統合フレームワークであるFine-Memを提案する。
まず、チャンクレベルのステップリワードを導入し、補助的なチャンク固有の質問応答タスクを通じて、即座にステップレベルの監視を行う。
第2に,クレジットカードを鍵記憶操作に固定することでグローバルな報酬を再分配するエビデンス・アンコール・リワード・アトリビューション(Evidence-Anchored Reward Attribution)を考案した。
これらのコンポーネントは、安定したポリシ最適化を可能にし、ローカルメモリ操作をメモリの長期的なユーティリティと整合させる。
MemalphaとMemoryAgentBenchの実験では、Fin-Memは強いベースラインを一貫して上回り、様々なサブタスクで優れた成功率を達成している。
さらなる分析により、様々なモデル構成とバックボーンにまたがる適応性と強力な一般化能力が明らかになる。
関連論文リスト
- HiMem: Hierarchical Long-Term Memory for LLM Long-Horizon Agents [3.9396865837159822]
HiMemは、長距離対話のための階層的長期記憶フレームワークである。
メモリ構築、検索、持続的なインタラクション中の動的更新をサポートする。
その結果、HiMemは、精度、一貫性、長期的な推論において、代表的ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-10T01:26:01Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。