論文の概要: ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents
- arxiv url: http://arxiv.org/abs/2602.01869v1
- Date: Mon, 02 Feb 2026 09:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.048992
- Title: ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents
- Title(参考訳): ProcMEM: LLMエージェントのための非パラメトリックPPOによる再利用可能な手続き記憶の学習
- Authors: Qirui Mi, Zhijian Ma, Mengyue Yang, Haoxuan Li, Yisen Wang, Haifeng Zhang, Jun Wang,
- Abstract要約: LLM駆動のエージェントは、繰り返し発生するシナリオにおいても、オンザフライの推論、再帰的なソリューションに依存していることが多い。
この経験の再利用が不十分なため、計算冗長性と実行不安定性が生じる。
本稿では,プロシージャメモリをパラメータ更新なしに対話体験から自律的に学習するフレームワークであるProcMEMを提案する。
- 参考スコア(独自算出の注目度): 31.24386037416211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-driven agents demonstrate strong performance in sequential decision-making but often rely on on-the-fly reasoning, re-deriving solutions even in recurring scenarios. This insufficient experience reuse leads to computational redundancy and execution instability. To bridge this gap, we propose ProcMEM, a framework that enables agents to autonomously learn procedural memory from interaction experiences without parameter updates. By formalizing a Skill-MDP, ProcMEM transforms passive episodic narratives into executable Skills defined by activation, execution, and termination conditions to ensure executability. To achieve reliable reusability without capability degradation, we introduce Non-Parametric PPO, which leverages semantic gradients for high-quality candidate generation and a PPO Gate for robust Skill verification. Through score-based maintenance, ProcMEM sustains compact, high-quality procedural memory. Experimental results across in-domain, cross-task, and cross-agent scenarios demonstrate that ProcMEM achieves superior reuse rates and significant performance gains with extreme memory compression. Visualized evolutionary trajectories and Skill distributions further reveal how ProcMEM transparently accumulates, refines, and reuses procedural knowledge to facilitate long-term autonomy.
- Abstract(参考訳): LLM駆動のエージェントは、シーケンシャルな意思決定において強いパフォーマンスを示すが、しばしば繰り返しシナリオであっても、オンザフライの推論、再帰的なソリューションに依存している。
この経験の再利用が不十分なため、計算冗長性と実行不安定性が生じる。
このギャップを埋めるために、エージェントがパラメータ更新なしで対話体験からプロシージャメモリを自律的に学習できるフレームワークProcMEMを提案する。
Skill-MDPを形式化し、ProcMEMは受動的叙述をアクティベーション、実行、終了条件によって定義された実行可能なスキルに変換する。
信頼性の高い再使用性を実現するために,高品質な候補生成のためのセマンティック勾配を利用する非パラメトリックPPOと,堅牢なスキル検証のためのPPOゲートを導入する。
スコアベースのメンテナンスを通じて、ProcMEMはコンパクトで高品質な手続き型メモリを維持できる。
ドメイン内、クロスタスク、クロスエージェントのシナリオにわたる実験結果から、ProcMEMは高い再利用率と、極端なメモリ圧縮による大幅なパフォーマンス向上を達成することが示された。
視覚化された進化軌道とスキルの分布は、ProcMEMが長期の自律性を促進するために手続き的知識を透過的に蓄積し、洗練し、再利用する方法をさらに明らかにする。
関連論文リスト
- MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory [46.632646462295234]
提案するMemRLは,非パラメトリック強化学習をエピソードメモリ上で行うことで,エージェントの自己進化を可能にするフレームワークである。
MemRLは、セマンティックな関連性によって候補をフィルタリングし、学習したQ値に基づいて候補を選択する2相検索機構を採用している。
解析実験により,MemRLは安定性・塑性ジレンマを効果的に調整し,重み付けを伴わずに連続的なランタイム改善を可能にすることを確認した。
論文 参考訳(メタデータ) (2026-01-06T17:14:50Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - PADME: Procedure Aware DynaMic Execution [7.8148770419284865]
本稿では,プロシージャをグラフベースで表現するエージェントフレームワークであるPADME(Process Aware DynaMic Execution)を紹介する。
手動グラフ構築や非構造化推論に依存する以前の作業とは異なり、PADMEは手続き的テキストを自動で実行可能なグラフに変換する。
PADMEは、ALFWorldとScienceWorldを含む4つの異なるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-13T11:15:49Z) - Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。
本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。
メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-08T16:20:56Z) - Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning [64.88132446226474]
ジェネラリストエージェントは生涯を通じて継続的に学び、適応し、忘れを最小化しながら効率的な転送を実現する必要がある。
従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。
本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。
論文 参考訳(メタデータ) (2025-06-06T11:13:04Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Wasserstein Auto-encoded MDPs: Formal Verification of Efficiently
Distilled RL Policies with Many-sided Guarantees [0.0]
変分マルコフ決定過程(VAE-MDPs)は、任意のRLポリシーから検証可能なコントローラを蒸留するための信頼性の高いフレームワークを提供する離散潜在空間モデルである。
本稿では, 原政策を実行するエージェントの挙動と蒸留政策との最適輸送のペナル化形式を最小化することにより, これらの問題を解決する潜在空間モデルであるWasserstein Auto-encoded MDP(WAE-MDP)を紹介する。
実験の結果, 蒸留法が10倍高速であるのに加えて, 潜水モデルの品質も良好であることが示唆された。
論文 参考訳(メタデータ) (2023-03-22T13:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。