論文の概要: Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.19828v4
- Date: Wed, 08 Oct 2025 16:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.109434
- Title: Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning
- Title(参考訳): Memory-R1: 大規模言語モデルエージェントの強化学習によるメモリ管理と利用
- Authors: Sikuan Yan, Xiufeng Yang, Zuchao Huang, Ercong Nie, Zifeng Ding, Zonggen Li, Xiaowen Ma, Kristian Kersting, Jeff Z. Pan, Hinrich Schütze, Volker Tresp, Yunpu Ma,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
- 参考スコア(独自算出の注目度): 89.55738101744657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of NLP tasks, but they remain fundamentally stateless, constrained by limited context windows that hinder long-horizon reasoning. Recent efforts to address this limitation often augment LLMs with an external memory bank, yet most existing pipelines are static and heuristic-driven, lacking a learned mechanism for deciding what to store, update, or retrieve. We present Memory-R1, a reinforcement learning (RL) framework that equips LLMs with the ability to actively manage and utilize external memory through two specialized agents: a Memory Manager that learns structured operations, including ADD, UPDATE, DELETE, and NOOP; and an Answer Agent that pre-selects and reasons over relevant entries. Both agents are fine-tuned with outcome-driven RL (PPO and GRPO), enabling adaptive memory management with minimal supervision. With only 152 training QA pairs, Memory-R1 outperforms strong baselines and generalizes across diverse question types, three benchmarks (LoCoMo, MSC, LongMemEval), and multiple model scales (3B-14B).
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて印象的な機能を示しているが、それらは基本的にステートレスであり、長い水平推論を妨げる限られたコンテキストウィンドウによって制約されている。
しかし、既存のパイプラインのほとんどは静的でヒューリスティックで、保存、更新、取得の方法を決定するための学習メカニズムが欠如している。
本稿では,ALD,UPDATE,DELETE,NOOPなどの構造化操作を学習するメモリマネージャと,関連する項目の事前選択と理由付けを行うアンサーエージェントの2つの特殊なエージェントを通じて,LCMをアクティブに管理・活用する機能を備えた強化学習(RL)フレームワークであるMemory-R1を提案する。
どちらのエージェントも結果駆動型RL(PPOとGRPO)で微調整され、最小限の監視で適応型メモリ管理を可能にする。
152のトレーニングQAペアだけで、Memory-R1は強力なベースラインを上回り、様々な質問タイプ、LoCoMo、MSC、LongMemEvalの3つのベンチマーク、3つのモデルスケール(3B-14B)で一般化する。
関連論文リスト
- MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - Empowering Working Memory for Large Language Model Agents [9.83467478231344]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。