論文の概要: Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
- arxiv url: http://arxiv.org/abs/2510.12635v1
- Date: Tue, 14 Oct 2025 15:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.373037
- Title: Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
- Title(参考訳): 行動としての記憶:長距離エージェントタスクのための自律的文脈キュレーション
- Authors: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang,
- Abstract要約: 大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。
既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。
本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
- 参考スコア(独自算出の注目度): 23.201035830828726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models face challenges in long-horizon agentic tasks as their constrained memory is easily overwhelmed by distracting or irrelevant context. Existing working memory methods typically rely on external, heuristic mechanisms that are decoupled from the agent's core policy. In this work, we reframe working memory management as a learnable, intrinsic capability. We propose a novel framework, Memory-as-Action, where an agent actively manages its working memory by executing explicit editing operations as part of a unified policy. This formulation allows an agent, trained via reinforcement learning, to balance memory curation against long-term task objectives under given resource constraints. However, such memory editing actions break the standard assumption of a continuously growing prefix in LLM interactions, leading to what we call trajectory fractures. These non-prefix changes disrupt the causal continuity required by standard policy gradient methods, making those methods inapplicable. To address this, we propose a new algorithm, Dynamic Context Policy Optimization, which enables stable end-to-end reinforcement learning by segmenting trajectories at memory action points and applying trajectory-level advantages to the resulting action segments. Our results demonstrate that jointly optimizing for task reasoning and memory management in an end-to-end fashion not only reduces overall computational consumption but also improves task performance, driven by adaptive context curation strategies tailored to the model's intrinsic capabilities.
- Abstract(参考訳): 大規模言語モデルは、制約されたメモリが混乱や無関係なコンテキストによって簡単に圧倒されるため、長期のエージェントタスクにおいて課題に直面します。
既存のワーキングメモリメソッドは、通常、エージェントのコアポリシーから切り離された外部のヒューリスティックなメカニズムに依存します。
この作業では、作業メモリ管理を学習可能な本質的な能力として再編成します。
本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
この定式化により、強化学習によって訓練されたエージェントは、与えられたリソース制約の下での長期タスク目標に対するメモリキュレーションのバランスをとることができる。
しかし、そのようなメモリ編集動作は、LLM相互作用において連続的に増加するプレフィックスの標準的な仮定を破り、トラジェクティブ・フラクチャー(trajectory fractures)と呼ばれるものへと繋がる。
これらの非修正変更は、標準方針勾配法で要求される因果連続性を阻害し、それらの方法が適用不可能となる。
そこで本稿では,メモリアクションポイントにおけるトラジェクトリのセグメント化と,結果として生じるアクションセグメントに対するトラジェクトリレベルのアドバンテージの適用により,安定したエンドツーエンドの強化学習を可能にする,動的コンテキストポリシー最適化手法を提案する。
この結果から,タスク推論とメモリ管理をエンドツーエンドで協調的に最適化することで,全体の計算消費を削減できるだけでなく,モデル固有の能力に合わせた適応型コンテキストキュレーション戦略により,タスク性能も向上することが示された。
関連論文リスト
- Memory Management and Contextual Consistency for Long-Running Low-Code Agents [0.0]
本稿ではLCNCエージェントに特化して設計された新しいハイブリッドメモリシステムを提案する。
認知科学にインスパイアされた私たちのアーキテクチャは、エピソードとセマンティックメモリコンポーネントと、積極的な「インテリジェント・デカイ」メカニズムを組み合わせています。
鍵となるイノベーションは、LCNCパラダイムに沿ったユーザ中心の可視化インターフェースであり、非技術者のユーザがエージェントのメモリを直接管理できるようにする。
論文 参考訳(メタデータ) (2025-09-27T08:01:26Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。
本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。
メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-08T16:20:56Z) - Memory Allocation in Resource-Constrained Reinforcement Learning [8.866141780407903]
リソースの制約は、学習と意思決定の両方を根本的に変えることができます。
標準的な強化学習アルゴリズムを用いて、未知環境をナビゲートする際のメモリ制約がエージェントの性能に与える影響について検討する。
特に、メモリ制限されたエージェントはジレンマに直面している:そのモデルを使用して計画を作成するのとは対照的に、そのエージェントの内部プロセス、例えば世界モデルを見積もるなど、そのエージェントの内部プロセスに制限されたメモリのどのくらいを割り当てるべきか?
論文 参考訳(メタデータ) (2025-06-09T21:15:37Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。