論文の概要: Revisiting Fundamentals of Experience Replay
- arxiv url: http://arxiv.org/abs/2007.06700v1
- Date: Mon, 13 Jul 2020 21:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:03:51.566652
- Title: Revisiting Fundamentals of Experience Replay
- Title(参考訳): 体験リプレイの基礎の再検討
- Authors: William Fedus, Prajit Ramachandran, Rishabh Agarwal, Yoshua Bengio,
Hugo Larochelle, Mark Rowland, Will Dabney
- Abstract要約: 本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
- 参考スコア(独自算出の注目度): 91.24213515992595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay is central to off-policy algorithms in deep reinforcement
learning (RL), but there remain significant gaps in our understanding. We
therefore present a systematic and extensive analysis of experience replay in
Q-learning methods, focusing on two fundamental properties: the replay capacity
and the ratio of learning updates to experience collected (replay ratio). Our
additive and ablative studies upend conventional wisdom around experience
replay -- greater capacity is found to substantially increase the performance
of certain algorithms, while leaving others unaffected. Counterintuitively we
show that theoretically ungrounded, uncorrected n-step returns are uniquely
beneficial while other techniques confer limited benefit for sifting through
larger memory. Separately, by directly controlling the replay ratio we
contextualize previous observations in the literature and empirically measure
its importance across a variety of deep RL algorithms. Finally, we conclude by
testing a set of hypotheses on the nature of these performance benefits.
- Abstract(参考訳): experience replayは、深層強化学習(rl)におけるオフポリシーアルゴリズムの中心ですが、私たちの理解には大きなギャップがあります。
そこで本研究では,q-learning法における経験リプレイの体系的かつ広範な分析を行い,リプレイ能力と学習更新率(リプレイ率)の2つの基本的な特性に着目した。
当社の加法とアブレーションによる研究は、経験リプレイに関する従来の知恵を裏付けるものです -- 高いキャパシティは、特定のアルゴリズムのパフォーマンスを大きく向上させると同時に、他のアルゴリズムに影響を与えないのです。
直観に反することに、理論上は根拠がなく、修正されていないnステップのリターンは一意に有益であるが、他のテクニックではより大きなメモリをシフティングすることの利点が限定されている。
第2に、リプレイ率を直接制御することで、文献における過去の観察を文脈化し、様々な深いRLアルゴリズムでその重要性を実証的に測定する。
最後に、これらのパフォーマンスの利点の性質に関する一連の仮説をテストすることで締めくくります。
関連論文リスト
- Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Practical Recommendations for Replay-based Continual Learning Methods [18.559132470835937]
継続学習では、以前の知識を忘れることなく、動的で非定常的なデータのストリームからモデルを学習する必要がある。
リプレイアプローチが最も効果的であることが実証的に証明されている。
論文 参考訳(メタデータ) (2022-03-19T12:44:44Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。