論文の概要: Beyond Sliding Windows: Learning to Manage Memory in Non-Markovian Environments
- arxiv url: http://arxiv.org/abs/2512.19154v1
- Date: Mon, 22 Dec 2025 08:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.678979
- Title: Beyond Sliding Windows: Learning to Manage Memory in Non-Markovian Environments
- Title(参考訳): Windowsのスライディングを超えて - 非マルコフ環境でメモリ管理を学ぶ
- Authors: Geraud Nangue Tasse, Matthew Riemer, Benjamin Rosman, Tim Klinger,
- Abstract要約: より現実的な領域で経験される重要な課題は、エージェントの観察に関して、マルコフに依存していないことである。
本稿では, コンバージェンスを保証し, メモリ制約を定量化するメタアルゴリズムを提案する。
実験では、一般的なメモリタスクを利用し、非マルコフ依存の度合いを制御できるようにした。
- 参考スコア(独自算出の注目度): 15.340684431848024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent success in developing increasingly general purpose agents based on sequence models has led to increased focus on the problem of deploying computationally limited agents within the vastly more complex real-world. A key challenge experienced in these more realistic domains is highly non-Markovian dependencies with respect to the agent's observations, which are less common in small controlled domains. The predominant approach for dealing with this in the literature is to stack together a window of the most recent observations (Frame Stacking), but this window size must grow with the degree of non-Markovian dependencies, which results in prohibitive computational and memory requirements for both action inference and learning. In this paper, we are motivated by the insight that in many environments that are highly non-Markovian with respect to time, the environment only causally depends on a relatively small number of observations over that time-scale. A natural direction would then be to consider meta-algorithms that maintain relatively small adaptive stacks of memories such that it is possible to express highly non-Markovian dependencies with respect to time while considering fewer observations at each step and thus experience substantial savings in both compute and memory requirements. Hence, we propose a meta-algorithm (Adaptive Stacking) for achieving exactly that with convergence guarantees and quantify the reduced computation and memory constraints for MLP, LSTM, and Transformer-based agents. Our experiments utilize popular memory tasks, which give us control over the degree of non-Markovian dependencies. This allows us to demonstrate that an appropriate meta-algorithm can learn the removal of memories not predictive of future rewards without excessive removal of important experiences. Code: https://github.com/geraudnt/adaptive-stacking
- Abstract(参考訳): 近年、シーケンスモデルに基づく汎用エージェントの開発が成功し、計算に制限のあるエージェントをより複雑な現実世界に展開する問題に焦点が当てられている。
これらのより現実的な領域で経験される重要な課題は、エージェントの観察に関して、非常に非マルコフ的依存関係であり、小さな制御された領域では一般的ではない。
文献でこれを扱う主なアプローチは、最新の観測(フレーム・スタックング)のウィンドウをまとめることであるが、このウィンドウサイズはマルコフに依存しない程度に増大し、結果としてアクション推論と学習の両方において計算とメモリの要求が禁止される。
本稿では,時間に関してマルコフ的でない多くの環境において,その環境は比較的少数の時間スケールでの観測のみに因果的に依存する,という知見に動機づけられる。
自然な方向は、比較的小さな適応的なメモリスタックを維持するメタアルゴリズムを考えることであり、これにより、各ステップでの観測を少なくしながら、時間に関して高度に非マルコフ的依存関係を表現でき、計算とメモリの要求の両方において実質的な節約を経験することができる。
そこで本稿では,MLP,LSTM,Transformerベースのエージェントに対して,収束性を保証するメタアルゴリズム(Adaptive Stacking)を提案する。
実験では、一般的なメモリタスクを利用し、非マルコフ依存の度合いを制御できるようにした。
これにより、重要な経験を過度に取り除くことなく、将来の報奨を予測しない記憶の除去を適切なメタアルゴリズムで学べることを示すことができる。
コード:https://github.com/geraudnt/adaptive-stacking
関連論文リスト
- Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - Memory Management and Contextual Consistency for Long-Running Low-Code Agents [0.0]
本稿ではLCNCエージェントに特化して設計された新しいハイブリッドメモリシステムを提案する。
認知科学にインスパイアされた私たちのアーキテクチャは、エピソードとセマンティックメモリコンポーネントと、積極的な「インテリジェント・デカイ」メカニズムを組み合わせています。
鍵となるイノベーションは、LCNCパラダイムに沿ったユーザ中心の可視化インターフェースであり、非技術者のユーザがエージェントのメモリを直接管理できるようにする。
論文 参考訳(メタデータ) (2025-09-27T08:01:26Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs [40.35884943268004]
非常に長いシーケンスでは、より大きくスパースなモデルの方が小さくて密度の高いモデルよりも好ましいことを示す。
タスクやフェーズをまたいでベストを尽くす明確な戦略は存在しません。
本研究は, 厳密な注意を喚起するための新しいスケーリング法を導入し, 検証し, 実験範囲を超えている可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-24T17:39:25Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。