論文の概要: Two-Memory Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.10098v2
- Date: Sun, 23 Apr 2023 09:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 11:20:11.832830
- Title: Two-Memory Reinforcement Learning
- Title(参考訳): 2メモリ強化学習
- Authors: Zhao Yang, Thomas. M. Moerland, Mike Preuss, Aske Plaat
- Abstract要約: エピソード記憶と強化学習には、それぞれ独自の長所と短所がある。
本稿では,2次元記憶と強化学習を組み合わせた2次元記憶強化学習エージェント (2M) を提案する。
実験により,2Mエージェントはよりデータ効率が高く,純粋なエピソード記憶と純粋な強化学習の両方に優れることが示された。
- 参考スコア(独自算出の注目度): 7.021281655855703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep reinforcement learning has shown important empirical success, it
tends to learn relatively slow due to slow propagation of rewards information
and slow update of parametric neural networks. Non-parametric episodic memory,
on the other hand, provides a faster learning alternative that does not require
representation learning and uses maximum episodic return as state-action values
for action selection. Episodic memory and reinforcement learning both have
their own strengths and weaknesses. Notably, humans can leverage multiple
memory systems concurrently during learning and benefit from all of them. In
this work, we propose a method called Two-Memory reinforcement learning agent
(2M) that combines episodic memory and reinforcement learning to distill both
of their strengths. The 2M agent exploits the speed of the episodic memory part
and the optimality and the generalization capacity of the reinforcement
learning part to complement each other. Our experiments demonstrate that the 2M
agent is more data efficient and outperforms both pure episodic memory and pure
reinforcement learning, as well as a state-of-the-art memory-augmented RL
agent. Moreover, the proposed approach provides a general framework that can be
used to combine any episodic memory agent with other off-policy reinforcement
learning algorithms.
- Abstract(参考訳): 深層強化学習は重要な経験的成功を示しているが、報酬情報の伝播が遅く、パラメトリックニューラルネットワークの更新が遅いため、比較的遅い傾向にある。
一方、非パラメトリックエピソードメモリは、表現学習を必要としない高速な学習代替手段を提供し、アクション選択のステートアクション値として最大エピソードリターンを使用する。
エピソディックメモリと強化学習には、それぞれ独自の強みと弱みがある。
人間は学習中に複数のメモリシステムを同時に利用し、それら全てから恩恵を受けることができる。
本研究では,2次元記憶と強化学習を組み合わせた2次元記憶強化学習エージェント (2M) を提案する。
2Mエージェントは、強調記憶部の速度と強化学習部の最適性と一般化能力を利用して相互に補完する。
実験により, 2M エージェントはよりデータ効率が高く, 純粋なエピソード記憶と純粋強化学習と, 最先端のメモリ増強 RL エージェントの両方に優れることが示された。
さらに、提案手法は、任意のエピソディックメモリエージェントと他のオフポリシー強化学習アルゴリズムを組み合わせるのに使用できる汎用フレームワークを提供する。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。
本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。
この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文 参考訳(メタデータ) (2023-10-06T15:54:12Z) - Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。
提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。
Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文 参考訳(メタデータ) (2023-10-06T09:56:26Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Successor Feature Neural Episodic Control [17.706998080391635]
強化学習の長年の目標は、速い学習と、人間や動物に似た柔軟なスキルの移譲を示すインテリジェントなエージェントを構築することである。
本稿では,これらの目標に対処するための2つのフレームワーク – エピソード制御と後継機能 – の統合について検討する。
論文 参考訳(メタデータ) (2021-11-04T19:14:43Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Augmented Replay Memory in Reinforcement Learning With Continuous
Control [1.6752182911522522]
オンライン強化学習エージェントは、高次値関数に変換することで、現在、増大するデータを処理することができる。
この拡張によりエージェントの状態空間が増大し、より複雑な問題にスケールアップできるだけでなく、冗長なデータや矛盾するデータを学習することで忘れるリスクも増大する。
大量のデータの近似を改善するために、リプレイメモリバッファに格納された過去の経験のランダムなミニバッチを各学習ステップで頻繁に再生する。
論文 参考訳(メタデータ) (2019-12-29T20:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。