論文の概要: MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
- arxiv url: http://arxiv.org/abs/2601.03192v1
- Date: Tue, 06 Jan 2026 17:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.0379
- Title: MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
- Title(参考訳): MemRL: エピソード記憶に基づく実行時強化学習による自己進化エージェント
- Authors: Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng, Weinan Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Yutao Qi, Bo Tang, Muning Wen,
- Abstract要約: 提案するMemRLは,非パラメトリック強化学習をエピソードメモリ上で行うことで,エージェントの自己進化を可能にするフレームワークである。
MemRLは、セマンティックな関連性によって候補をフィルタリングし、学習したQ値に基づいて候補を選択する2相検索機構を採用している。
解析実験により,MemRLは安定性・塑性ジレンマを効果的に調整し,重み付けを伴わずに連続的なランタイム改善を可能にすることを確認した。
- 参考スコア(独自算出の注目度): 46.632646462295234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hallmark of human intelligence is the ability to master new skills through Constructive Episodic Simulation-retrieving past experiences to synthesize solutions for novel tasks. While Large Language Models possess strong reasoning capabilities, they struggle to emulate this self-evolution: fine-tuning is computationally expensive and prone to catastrophic forgetting, while existing memory-based methods rely on passive semantic matching that often retrieves noise. To address these challenges, we propose MemRL, a framework that enables agents to self-evolve via non-parametric reinforcement learning on episodic memory. MemRL explicitly separates the stable reasoning of a frozen LLM from the plastic, evolving memory. Unlike traditional methods, MemRL employs a Two-Phase Retrieval mechanism that filters candidates by semantic relevance and then selects them based on learned Q-values (utility). These utilities are continuously refined via environmental feedback in an trial-and-error manner, allowing the agent to distinguish high-value strategies from similar noise. Extensive experiments on HLE, BigCodeBench, ALFWorld, and Lifelong Agent Bench demonstrate that MemRL significantly outperforms state-of-the-art baselines. Our analysis experiments confirm that MemRL effectively reconciles the stability-plasticity dilemma, enabling continuous runtime improvement without weight updates.
- Abstract(参考訳): ヒューマンインテリジェンスの目玉は、構成的エピソードシミュレーション(Constructive Episodic Simulation)によって新しいスキルを習得し、新しいタスクのためのソリューションを合成する能力である。
大きな言語モデルは強力な推論能力を持っているが、彼らはこの自己進化をエミュレートするのに苦労している。微調整は計算的に高価であり、破滅的な忘れがちであるのに対して、既存のメモリベースのメソッドは、しばしばノイズを回収するパッシブなセマンティックマッチングに依存している。
これらの課題に対処するために、エージェントがエピソードメモリ上で非パラメトリック強化学習を通じて自己進化できるフレームワークであるMemRLを提案する。
MemRLは、凍結LDMの安定な推論と、進化する記憶とを明確に分離する。
従来の方法とは異なり、MemRLは2相検索機構を使用して、セマンティックな関連性によって候補をフィルタリングし、学習されたQ値(ユーティリティ)に基づいてそれらを選択する。
これらのユーティリティは、試行錯誤的な方法で環境フィードバックを通じて継続的に洗練され、エージェントが同様のノイズと高価値戦略を区別することができる。
HLE、BigCodeBench、ALFWorld、Lifelong Agent Benchに関する大規模な実験は、MemRLが最先端のベースラインを大幅に上回ることを示した。
解析実験により,MemRLは安定性・塑性ジレンマを効果的に調整し,重み付けを伴わずに連続的なランタイム改善を可能にすることを確認した。
関連論文リスト
- Towards Continuous Intelligence Growth: Self-Training, Continual Learning, and Dual-Scale Memory in SuperIntelliAgent [10.571643330948858]
SuperIntelliAgentは、学習可能な小さな拡散モデル(学習者)と凍結した大言語モデル(検証者)を結合するエージェント学習フレームワークである。
従来の教師付き微調整とは異なり、SuperIntelliAgentはアノテーションなしで自律的に学習する。
トレーニング可能な学習者と推論可能な検証器をペアリングすることは、知性を成長させる最小限の信頼性単位となると仮定する。
論文 参考訳(メタデータ) (2025-11-28T18:32:49Z) - From Experience to Strategy: Empowering LLM Agents with Trainable Graph Memory [48.22750809620306]
大規模言語モデル(LLM)に基づくエージェントは、自律的なタスク解決において顕著な可能性を示している。
本稿では,エージェント中心型,トレーニング可能な,多層グラフメモリフレームワークを提案する。
コンテクストメモリがLLMの情報活用能力をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2025-11-11T03:36:33Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent [6.300669721057781]
メタ・ポリシィ・リフレクション(Meta-Policy Reflexion, MPR)は、LCM生成したリフレクションを構造化された述語型メタ・ポリシィ・メモリ(MPM)に集約するフレームワークである。
MPRはモデルウェイト更新なしで再利用可能な修正知識を外部化し、安全でないアクションや無効なアクションを減らすためにドメイン制約を強制し、言語ベースのリフレクションの適応性を維持する。
供給材料に報告された実証結果は, 反射ベースラインと比較して, 実行精度とロバスト性が一貫した向上を示し, 規則許容性は安定性をさらに向上させる。
論文 参考訳(メタデータ) (2025-09-04T08:18:39Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。