Fugu-MT 論文翻訳(概要): MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

論文の概要: MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

arxiv url: http://arxiv.org/abs/2603.00680v1
Date: Sat, 28 Feb 2026 14:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.319773
Title: MemPO: Self-Memory Policy Optimization for Long-Horizon Agents
Title（参考訳）: MemPO:長距離エージェントの自己記憶ポリシー最適化
Authors: Ruoran Li, Xinghua Zhang, Haiyang Yu, Shitong Duan, Xiang Li, Wenxin Xiang, Chonghua Liao, Xudong Guo, Yongbin Li, Jinli Suo,
Abstract要約: 既存のメソッドは通常、外部メモリモジュールを導入し、格納されたメモリから関連する情報を検索する。本稿では,自己記憶ポリシー最適化アルゴリズム(MemPO)を提案する。 MemPOはF1の絶対スコアが25.98%、SOTAベースラインが7.1%、トークン使用率が67.58%、73.12%である。
参考スコア（独自算出の注目度）: 52.00646524941419
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-horizon agents face the challenge of growing context size during interaction with environment, which degrades the performance and stability. Existing methods typically introduce the external memory module and look up the relevant information from the stored memory, which prevents the model itself from proactively managing its memory content and aligning with the agent's overarching task objectives. To address these limitations, we propose the self-memory policy optimization algorithm (MemPO), which enables the agent (policy model) to autonomously summarize and manage their memory during interaction with environment. By improving the credit assignment mechanism based on memory effectiveness, the policy model can selectively retain crucial information, significantly reducing token consumption while preserving task performance. Extensive experiments and analyses confirm that MemPO achieves absolute F1 score gains of 25.98% over the base model and 7.1% over the previous SOTA baseline, while reducing token usage by 67.58% and 73.12%.
Abstract（参考訳）: ロングホライゾンエージェントは、環境との相互作用中にコンテキストサイズを増大させ、性能と安定性を低下させるという課題に直面している。既存のメソッドは通常、外部メモリモジュールを導入して、格納されたメモリから関連する情報を検索する。これらの制約に対処するため、エージェント(政治モデル)が環境との相互作用中に自動的にメモリを要約し、管理できる自己記憶ポリシー最適化アルゴリズム(MemPO)を提案する。メモリ有効性に基づいて信用割当機構を改良することにより、ポリシーモデルは重要な情報を選択的に保持し、タスク性能を維持しながらトークン消費を著しく低減することができる。大規模な実験と分析により、MemPOはベースモデルよりも25.98%、以前のSOTAベースラインより7.1%、トークン使用率67.58%、73.12%という絶対的なF1スコアを獲得したことが確認された。

関連論文リスト

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文参考訳（メタデータ） (2026-03-02T15:15:11Z)
UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory [46.87954895079213]
自己進化型メモリは、大規模言語モデル(LLM)のトレーニング可能なパラメータとして機能する既存の方法は、メモリ抽出を静的プロセスとして扱いながら、メモリ管理を優先的に最適化する。本稿では,大言語モデルを協調的に最適化し,メモリの抽出と管理を同時に行うための統一メモリ抽出管理(UMEM)を提案する。
論文参考訳（メタデータ） (2026-02-11T08:58:41Z)
Mem-T: Densifying Rewards for Long-Horizon Memory Agents [23.19373149519922]
我々は,動的更新やストリーミング入力によるマルチターン検索を行うために,軽量な階層型メモリデータベースと対話する自律メモリエージェントMem-Tを紹介する。また,木誘導型強化学習フレームワークであるMoT-GRPOを提案する。
論文参考訳（メタデータ） (2026-01-30T14:23:33Z)
MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models [40.965722377085456]
メモリ品質を評価するための報酬モデルの有効性を体系的に研究する最初のベンチマークであるMemoryRewardBenchを紹介する。 13個の最先端RMの評価は、オープンソースモデルとプロプライエタリモデルの間のパフォーマンスギャップを減らしていることを示している。
論文参考訳（メタデータ） (2026-01-17T09:04:53Z)
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文参考訳（メタデータ） (2026-01-05T08:24:16Z)
Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management [49.71055327567513]
メモリ管理は、不確実性の下でのシーケンシャルな意思決定問題と見なされるべきである。私たちの貢献は、新しいアルゴリズムではなく、アプローチの限界を明確にする原則的なリフレーミングです。
論文参考訳（メタデータ） (2025-12-25T08:23:03Z)
Forgetful but Faithful: A Cognitive Memory Architecture and Benchmark for Privacy-Aware Generative Agents [2.28438857884398]
本稿では、生成エージェントにおける人中心記憶管理のための新しいフレームワークであるメモリ・アウェア・リテンション(MaRS)を紹介する。本稿では,物語コヒーレンス,目標達成,社会的リコール精度,プライバシ保護,コスト効率など,エージェントのパフォーマンスを評価する総合評価フレームワークであるForgetful but Faithful Agent(FiFA)ベンチマークを提案する。本研究は、メモリ予算エージェント評価のための新しいベンチマークを確立し、資源制約されたプライバシに敏感な環境に生成エージェントを配置するための実践的ガイドラインを提供する。
論文参考訳（メタデータ） (2025-12-14T21:40:07Z)
O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents [60.1848551962911]
O-Memはアクティブユーザプロファイリングに基づく新しいメモリフレームワークである。 O-Memはペルソナ属性とトピック関連コンテキストの階層的検索をサポートする。
論文参考訳（メタデータ） (2025-11-17T16:55:19Z)
Analysis of the Memorization and Generalization Capabilities of AI Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。提案フレームワークの一般化と記憶性能を理論的に解析した。
論文参考訳（メタデータ） (2023-09-18T21:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。