論文の概要: Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.10132v1
- Date: Mon, 14 Oct 2024 03:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:54:14.437930
- Title: Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning
- Title(参考訳): 安定なアダマール記憶:強化学習のための記憶強化エージェントの活性化
- Authors: Hung Le, Kien Do, Dung Nguyen, Sunil Gupta, Svetha Venkatesh,
- Abstract要約: 現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 64.93848182403116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective decision-making in partially observable environments demands robust memory management. Despite their success in supervised learning, current deep-learning memory models struggle in reinforcement learning environments that are partially observable and long-term. They fail to efficiently capture relevant past information, adapt flexibly to changing observations, and maintain stable updates over long episodes. We theoretically analyze the limitations of existing memory models within a unified framework and introduce the Stable Hadamard Memory, a novel memory model for reinforcement learning agents. Our model dynamically adjusts memory by erasing no longer needed experiences and reinforcing crucial ones computationally efficiently. To this end, we leverage the Hadamard product for calibrating and updating memory, specifically designed to enhance memory capacity while mitigating numerical and learning challenges. Our approach significantly outperforms state-of-the-art memory-based methods on challenging partially observable benchmarks, such as meta-reinforcement learning, long-horizon credit assignment, and POPGym, demonstrating superior performance in handling long-term and evolving contexts.
- Abstract(参考訳): 部分的に観測可能な環境での効果的な意思決定は、堅牢なメモリ管理を必要とする。
教師あり学習の成功にもかかわらず、現在のディープラーニングの記憶モデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
それらは、関連した過去の情報を効率的に捉えることができず、観察の変化に柔軟に適応し、長期間にわたって安定した更新を維持する。
我々は,既存のメモリモデルの制約を統一されたフレームワーク内で理論的に解析し,強化学習エージェントのための新しいメモリモデルであるスタブル・アダマールメモリを導入する。
我々のモデルは、もはや必要のない経験を消去し、重要な体験を効率よく補強することで、動的にメモリ調整を行う。
この目的のために、メモリの校正と更新にHadamard製品を活用し、特に数値と学習の課題を軽減しつつ、メモリ容量の増強を図っている。
提案手法は,メタ強化学習,長期クレジット割り当て,POPGymなど,部分的に観測可能なベンチマークに挑戦する上で,最先端のメモリベース手法よりも優れ,長期的・進化的なコンテキストを扱う上で優れた性能を示す。
関連論文リスト
- Fine-Grained Gradient Restriction: A Simple Approach for Mitigating Catastrophic Forgetting [41.891312602770746]
Gradient Episodic Memory (GEM) は、過去のトレーニングサンプルのサブセットを利用して、モデルのパラメータの更新方向を制限することでバランスをとる。
メモリの強度は、主にGEMの能力を一般化し、それによってより有利なトレードオフをもたらすため、有効であることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:03:56Z) - Adversarially Diversified Rehearsal Memory (ADRM): Mitigating Memory Overfitting Challenge in Continual Learning [0.0]
継続的な学習は、それまでの知識を忘れずに、静止しないデータ分布を学習することに焦点を当てる。
リハーサルベースのアプローチは、破滅的な忘れに対処するために一般的に使用される。
本稿では、メモリ過度に適合する課題に対処するために、Adversarially Diversified Rehearsal Memoryを導入する。
論文 参考訳(メタデータ) (2024-05-20T06:56:43Z) - MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。
本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Learning What to Memorize: Using Intrinsic Motivation to Form Useful
Memory in Partially Observable Reinforcement Learning [0.0]
曖昧な環境で学習するためには、エージェントは以前の認識を記憶に残さなければならない。
本研究では, メモリの制御をエージェントに委ねることで, メモリ変更動作を可能とすることで, メモリの制御をエージェントに行わせるという考え方に従う。
この学習メカニズムは、希少な観察を記憶する本質的な動機によって支えられ、エージェントが環境中の状態を曖昧にするのに役立つ。
論文 参考訳(メタデータ) (2021-10-25T11:15:54Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。