論文の概要: Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.19828v1
- Date: Wed, 27 Aug 2025 12:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.623628
- Title: Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning
- Title(参考訳): Memory-R1: 大規模言語モデルエージェントの強化学習によるメモリ管理と利用
- Authors: Sikuan Yan, Xiufeng Yang, Zuchao Huang, Ercong Nie, Zifeng Ding, Zonggen Li, Xiaowen Ma, Hinrich Schütze, Volker Tresp, Yunpu Ma,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
152組の質問応答対と、トレーニング用の時間記憶バンクで、Memory-R1は最も競争力のある既存のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 59.16831804985279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of NLP tasks, but they remain fundamentally stateless, constrained by limited context windows that hinder long-horizon reasoning. Recent efforts to address this limitation often augment LLMs with an external memory bank, yet most existing pipelines are static and heuristic-driven, lacking any learned mechanism for deciding what to store, update, or retrieve. We present Memory-R1, a reinforcement learning (RL) framework that equips LLMs with the ability to actively manage and utilize external memory through two specialized agents: a Memory Manager that learns to perform structured memory operations {ADD, UPDATE, DELETE, NOOP}, and an Answer Agent that selects the most relevant entries and reasons over them to produce an answer. Both agents are fine-tuned with outcome-driven RL (PPO and GRPO), enabling adaptive memory management and use with minimal supervision. With as few as 152 question-answer pairs and a corresponding temporal memory bank for training, Memory-R1 outperforms the most competitive existing baseline and demonstrates strong generalization across diverse question types and LLM backbones. Beyond presenting an effective approach, this work provides insights into how RL can unlock more agentic, memory-aware behaviors in LLMs, pointing toward richer, more persistent reasoning systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて印象的な機能を示しているが、それらは基本的にステートレスであり、長い水平推論を妨げる限られたコンテキストウィンドウによって制約されている。
しかし、既存のパイプラインは静的でヒューリスティックで、何を保存するか、更新するか、取得するかを決めるための学習メカニズムが欠如している。
メモリマネージャは、構造化メモリ操作を学習する{ADD, UPDATE, DELETE, NOOP} と、それらに対して最も関連性の高い項目と理由を選択するアンサーエージェントである。
どちらのエージェントも結果駆動型RL(PPOとGRPO)で微調整され、適応型メモリ管理と最小限の監視で使用することができる。
152組の質問応答対とトレーニング用の時間記憶バンクで、Memory-R1は最も競争力のある既存のベースラインを上回り、多様な質問タイプとLLMバックボーンをまたいだ強力な一般化を示している。
効果的なアプローチの提示以外にも、この研究は、よりリッチで永続的な推論システムを指して、RLがLLMのよりエージェント的でメモリ対応の振る舞いを解き放つ方法に関する洞察を提供する。
関連論文リスト
- MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - Empowering Working Memory for Large Language Model Agents [9.83467478231344]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。