論文の概要: Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.11319v1
- Date: Mon, 22 Feb 2021 19:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:09:49.048974
- Title: Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning
- Title(参考訳): Stratified Experience Replay:Off-Policy Reinforcement Learningにおけるマルチプレシティーバイアスの修正
- Authors: Brett Daley, Cameron Hickert, Christopher Amato
- Abstract要約: 深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
- 参考スコア(独自算出の注目度): 17.3794999533024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (RL) methods rely on experience replay to
approximate the minibatched supervised learning setting; however, unlike
supervised learning where access to lots of training data is crucial to
generalization, replay-based deep RL appears to struggle in the presence of
extraneous data. Recent works have shown that the performance of Deep Q-Network
(DQN) degrades when its replay memory becomes too large.
This suggests that outdated experiences somehow impact the performance of
deep RL, which should not be the case for off-policy methods like DQN.
Consequently, we re-examine the motivation for sampling uniformly over a replay
memory, and find that it may be flawed when using function approximation. We
show that -- despite conventional wisdom -- sampling from the uniform
distribution does not yield uncorrelated training samples and therefore biases
gradients during training. Our theory prescribes a special non-uniform
distribution to cancel this effect, and we propose a stratified sampling scheme
to efficiently implement it.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)法は, 教師付き学習の最小限の設定を近似するために, 経験リプレイに依存するが, 多数のトレーニングデータへのアクセスが一般化に不可欠である教師付き学習とは異なり, リプレイベースの深部RLは, 余剰データの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
これは、古くなった経験がdeep rlのパフォーマンスに何らかの影響を与えていることを示唆している。
その結果,リプレイメモリ上で一様にサンプリングするモチベーションを再検討し,関数近似を用いた場合の欠陥を見出した。
従来の知識にもかかわらず,一様分布からのサンプリングは非相関なトレーニングサンプルを生成しないため,トレーニング中の勾配の偏りを示す。
本理論は,この効果を相殺するための特別な非一様分布を定式化し,効率的に実装するための階層化サンプリングスキームを提案する。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Temporal Difference Learning with Experience Replay [3.5823366350053325]
時間差学習(TD)は、強化学習(RL)において最も一般的なアルゴリズムの1つである。
本稿では,マルコフ雑音項の簡易分解を行い,経験的再生を伴うTD学習における有限時間誤差境界を提供する。
論文 参考訳(メタデータ) (2023-06-16T10:25:43Z) - PCR: Proxy-based Contrastive Replay for Online Class-Incremental
Continual Learning [16.67238259139417]
既存のリプレイベースのメソッドは、プロキシベースのあるいはコントラストベースのリプレイ方式で古いデータの一部を保存し、再生することで、この問題を効果的に緩和する。
プロキシベースコントラストリプレイ(PCR)と呼ばれる新しいリプレイ方式を提案する。
論文 参考訳(メタデータ) (2023-04-10T06:35:19Z) - A simple but strong baseline for online continual learning: Repeated
Augmented Rehearsal [13.075018350152074]
オンライン連続学習(OCL)は、単一のデータパスで、非定常データストリームからニューラルネットワークを漸進的にトレーニングすることを目的としている。
リハーサルベースの手法は、観測された入力分布を小さなメモリで時間とともに近似し、後にそれを再検討して、忘れることを避ける。
本稿では,バイアスや動的経験的リスク最小化の観点から,メモリ過適合リスクに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2022-09-28T08:43:35Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。