論文の概要: Generalizable Episodic Memory for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.06469v1
- Date: Thu, 11 Mar 2021 05:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:56:34.279912
- Title: Generalizable Episodic Memory for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための一般化可能なエピソード記憶
- Authors: Hao Hu, Jianing Ye, Zhizhou Ren, Guangxiang Zhu, Chongjie Zhang
- Abstract要約: 本稿では,エピソジックメモリの状態動作値を汎用的に整理する汎用的エピソジックメモリ(gem)を提案する。
GEMは暗記軌道の暗黙的な計画をサポートする。
実験により,MuJoCo連続制御タスクにおける既存のトラジェクトリベース手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 22.375796383623566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Episodic memory-based methods can rapidly latch onto past successful
strategies by a non-parametric memory and improve sample efficiency of
traditional reinforcement learning. However, little effort is put into the
continuous domain, where a state is never visited twice and previous episodic
methods fail to efficiently aggregate experience across trajectories. To
address this problem, we propose Generalizable Episodic Memory (GEM), which
effectively organizes the state-action values of episodic memory in a
generalizable manner and supports implicit planning on memorized trajectories.
GEM utilizes a double estimator to reduce the overestimation bias induced by
value propagation in the planning process. Empirical evaluation shows that our
method significantly outperforms existing trajectory-based methods on various
MuJoCo continuous control tasks. To further show the general applicability, we
evaluate our method on Atari games with discrete action space, which also shows
significant improvement over baseline algorithms.
- Abstract(参考訳): エピソディックメモリベースの手法は、非パラメトリックメモリによって過去の成功戦略に素早くラッチし、従来の強化学習のサンプル効率を向上させることができる。
しかし、連続的なドメインでは、状態は2度も訪れず、以前のエピソジックなメソッドは、トラジェクトリ全体で効率的に経験を集約することができない。
そこで本研究では,エピソジックメモリの状態動作値を汎用的に整理し,記憶されたトラジェクタの暗黙的計画を支援する一般化エピソジックメモリ(gem)を提案する。
GEMは、二重推定器を用いて、計画プロセスにおける値伝播による過大評価バイアスを低減する。
実験により,MuJoCo連続制御タスクにおける既存のトラジェクトリベース手法よりも優れた性能を示した。
汎用的な適用性を示すために,アタリゲームにおける離散的アクション空間を用いた手法を評価し,ベースラインアルゴリズムよりも大幅に改善することを示す。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Fine-Grained Gradient Restriction: A Simple Approach for Mitigating Catastrophic Forgetting [41.891312602770746]
Gradient Episodic Memory (GEM) は、過去のトレーニングサンプルのサブセットを利用して、モデルのパラメータの更新方向を制限することでバランスをとる。
メモリの強度は、主にGEMの能力を一般化し、それによってより有利なトレードオフをもたらすため、有効であることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:03:56Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Continuous Episodic Control [7.021281655855703]
本稿では,連続行動空間の問題における逐次決定のための新しい非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を紹介する。
いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好に維持できることを示した。
論文 参考訳(メタデータ) (2022-11-28T09:48:42Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - Sequential memory improves sample and memory efficiency in Episodic Control [0.0]
最先端の強化学習アルゴリズムは、パフォーマンスを達成するために必要なエピソードの数が多いため、サンプル非効率である。
哺乳類の海馬にインスパイアされたERLアルゴリズムは、通常、拡張メモリシステムを使用して過去の出来事から学習をブートストラップし、このサンプル非効率問題を克服する。
ここでは、エピソードサンプリングの順序から得られる取得メモリ内容のバイアスを含めることで、エピソード制御アルゴリズムのサンプリングとメモリ効率が向上することを示す。
論文 参考訳(メタデータ) (2021-12-29T18:42:15Z) - Solving Continuous Control with Episodic Memory [1.9493449206135294]
エピソード記憶により、強化学習アルゴリズムは過去の有望な体験を記憶し、活用してエージェントのパフォーマンスを向上させることができる。
本研究の目的は, エピソード記憶を連続制御におけるエージェントの性能向上に有効か, という問いに答えることである。
論文 参考訳(メタデータ) (2021-06-16T14:51:39Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Multi-step Estimation for Gradient-based Meta-learning [3.4376560669160385]
内部ステップの窓において,同じ勾配を再利用してコストを削減できる簡易かつ簡単な手法を提案する。
本手法は,トレーニング時間やメモリ使用量を大幅に削減し,競争精度を維持したり,場合によっては性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-08T00:37:01Z) - Continual Deep Learning by Functional Regularisation of Memorable Past [95.97578574330934]
知的システムにとって、新しいスキルを継続的に学習することは重要だが、標準的なディープラーニング手法は、過去の破滅的な忘れ物に悩まされている。
本稿では, 過去の記憶に残るいくつかの例を, 忘れることを避けるために活用する機能正規化手法を提案する。
提案手法は,標準ベンチマーク上での最先端性能を実現し,正規化とメモリベースの手法を自然に組み合わせた生涯学習の新たな方向性を開拓する。
論文 参考訳(メタデータ) (2020-04-29T10:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。