論文の概要: Double Prioritized State Recycled Experience Replay
- arxiv url: http://arxiv.org/abs/2007.03961v3
- Date: Mon, 21 Sep 2020 12:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 10:01:13.394621
- Title: Double Prioritized State Recycled Experience Replay
- Title(参考訳): 二重優先状態再生体験再生
- Authors: Fanchen Bu, Dong Eui Chang
- Abstract要約: 本稿では,DPSR (Double-prioritized State-Recycled) 体験再生法を提案する。
我々は、この手法をDeep Q-Networks (DQN) で使用し、最先端の結果を得た。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience replay enables online reinforcement learning agents to store and
reuse the previous experiences of interacting with the environment. In the
original method, the experiences are sampled and replayed uniformly at random.
A prior work called prioritized experience replay was developed where
experiences are prioritized, so as to replay experiences seeming to be more
important more frequently. In this paper, we develop a method called
double-prioritized state-recycled (DPSR) experience replay, prioritizing the
experiences in both training stage and storing stage, as well as replacing the
experiences in the memory with state recycling to make the best of experiences
that seem to have low priorities temporarily. We used this method in Deep
Q-Networks (DQN), and achieved a state-of-the-art result, outperforming the
original method and prioritized experience replay on many Atari games.
- Abstract(参考訳): experience replayは、オンライン強化学習エージェントが環境と対話する前の体験を保存、再利用することができる。
元の方法では、経験をサンプル化し、ランダムに一様に再生する。
優先体験リプレイと呼ばれる以前の作業は、体験が優先されるように、より頻繁に体験をリプレイするために開発された。
本稿では,DPSR(Double-prioritized State-Recycled)エクスペリエンスの再生手法を開発し,トレーニング段階と記憶段階の両方での体験を優先し,メモリの体験を状態リサイクルに置き換えることで,一時的に優先度の低い体験を最大限に活用する。
我々は、この手法をDeep Q-Networks (DQN) で使用し、多くのAtariゲームにおいて、元の手法を上回り、経験再現を優先して最先端の結果を得た。
関連論文リスト
- Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - Revisiting Prioritized Experience Replay: A Value Perspective [21.958500332929898]
我々は、経験リプレイにより、過去の経験を利用して累積報酬を最大化することができると論じている。
我々のフレームワークはRLの2つの重要な量: $|textTD|$と経験の価値をリンクしている。
実験により,アタリゲームの最大エントロピーRLが向上することを示す。
論文 参考訳(メタデータ) (2021-02-05T16:09:07Z) - Lucid Dreaming for Experience Replay: Refreshing Past States with the
Current Policy [48.8675653453076]
我々は、エージェントの現在のポリシーを活用することで、リプレイ体験をリフレッシュできるフレームワークであるLucid Dreaming for Experience Replay(LiDER)を紹介した。
LiDERは6つのAtari 2600ゲームにおいて、ベースラインよりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2020-09-29T02:54:11Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Bootstrapping a DQN Replay Memory with Synthetic Experiences [0.0]
学習者を支援するために,非決定論的離散環境において合成体験を生成するアルゴリズムを提案する。
The Interpolated Experience Replay are evaluate on the FrozenLake environment and we show that it can support the agent to learn faster and better than the classic version。
論文 参考訳(メタデータ) (2020-02-04T15:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。