論文の概要: Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2605.30159v1
- Date: Thu, 28 May 2026 16:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.476434
- Title: Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents
- Title(参考訳): 長期LDMエージェントのメタ認知メモリポリシー最適化
- Authors: Ziyan Liu, Zhezheng Hao, Yeqiu Chen, Hong Wang, Jingren Hou, Ruiyi Ding, Yongkang Yang, Wence Ji, Wei Xia, Feng Liu,
- Abstract要約: メモリ拡張LDMエージェントは、相互作用軌跡をコンパクトメモリに要約することにより、複雑な長距離タスクに対処する。
既存のアプローチでは、結果に基づく強化学習を使用してこれらのメモリポリシーをトレーニングし、中間メモリ品質が低下する場所のローカライズに失敗する。
メモリ最適化は、単なる軌道レベルの成功ではなく、中間要約によって引き起こされる信念の明確さに焦点をあてるべきである。
- 参考スコア(独自算出の注目度): 13.846550145896314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent's estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.
- Abstract(参考訳): メモリ拡張LDMエージェントは、相互作用軌跡をコンパクトメモリに再帰的に要約することで、複雑な長距離タスクに対処する。
しかし、既存のアプローチでは、結果に基づく強化学習を使用してこれらのメモリポリシーをトレーニングし、中間メモリ品質が低下する場所のローカライズに失敗する。
相互作用が展開するにつれて、あいまいな再帰的な要約は徐々にタスク関連情報を破棄し、意味的なノイズを導入する。
これは信念の逸脱を悪化させ、エージェントの潜在タスク状態の推定を妨げ、最終的に長い水平推論を脱線させる。
したがって、メモリ最適化は軌道レベルの成功だけでなく、中間要約による信念の明確性にも焦点をあてるべきである。
この目的のためにBelief Entropyという自己教師型プロキシを導入し、現在のメモリからモデルが潜在タスク状態についてどれだけ不確実かを調べる。
本稿ではメタ認知的メモリポリシー最適化(MMPO)を提案する。
MMPOは、粗末な結果に基づく信号のみに頼る代わりに、高度のてんかん不確実性を引き起こす要約を明示的にペナライズすることで、きめ細かなメモリ固有の監督を提供する。
実験の結果、MMPOは様々な長距離タスクにおいて既存の手法を一貫して上回り、1.75Mのコンテキストにスケールしても97.1%の性能を維持していることがわかった。
関連論文リスト
- Goal-Oriented Reasoning for RAG-based Memory in Conversational Agentic LLM Systems [20.461904943047468]
Goal-Memは、RAGベースのエージェントメモリのためのゴール指向の推論フレームワークである。
Goal-Memはマルチホップ推論と暗黙推論を必要とするタスクのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2026-05-12T14:51:02Z) - Belief Memory: Agent Memory Under Partial Observability [56.41506249481312]
本稿では,メモリパラダイムを観測毎に1つの結論にシフトし,その確率で複数の結論を導出するBeliefMemを提案する。
BeliefMemは決定論的パラダイムが破棄されるという不確実性を保ち、エージェントが高い信頼を持って行動することを可能にする。
LoCoMoとALFWorldベンチマークの実証的な評価は、限られたデータであっても、BeliefMemが最高の平均パフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-05-07T02:03:13Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.201035830828726]
大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。
既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。
本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:57Z) - Mnemosyne: An Unsupervised, Human-Inspired Long-Term Memory Architecture for Edge-Based LLMs [1.2582867366903179]
我々は、エッジベース大規模言語モデル(LLM)のための、教師なし、人間にインスパイアされた長期記憶アーキテクチャであるMnemosyneを紹介する。
提案手法では, グラフ構造記憶, モジュール状物質および冗長性フィルタ, メモリコミットとプルーニング機構, 時間減衰とリフレッシュ処理による確率的リコールを用いた。
Mnemosyneは、反復的で意味的に類似しているが、時間的に異なる会話は、ナイーブ検索によって制限される縦型医療アシスタントでの使用を目的として設計されている。
論文 参考訳(メタデータ) (2025-10-07T03:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。