論文の概要: Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation
- arxiv url: http://arxiv.org/abs/2206.03171v1
- Date: Tue, 7 Jun 2022 10:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 23:21:42.477038
- Title: Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation
- Title(参考訳): 驚きを振り返る - 神経近似のためのリバースエクスペリエンスリプレイの安定化
- Authors: Ramnath Kumar, Dheeraj Nagaraj
- Abstract要約: 最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience replay methods, which are an essential part of reinforcement
learning(RL) algorithms, are designed to mitigate spurious correlations and
biases while learning from temporally dependent data. Roughly speaking, these
methods allow us to draw batched data from a large buffer such that these
temporal correlations do not hinder the performance of descent algorithms. In
this experimental work, we consider the recently developed and theoretically
rigorous reverse experience replay (RER), which has been shown to remove such
spurious biases in simplified theoretical settings. We combine RER with
optimistic experience replay (OER) to obtain RER++, which is stable under
neural function approximation. We show via experiments that this has a better
performance than techniques like prioritized experience replay (PER) on various
tasks, with a significantly smaller computational complexity. It is well known
in the RL literature that choosing examples greedily with the largest TD error
(as in OER) or forming mini-batches with consecutive data points (as in RER)
leads to poor performance. However, our method, which combines these
techniques, works very well.
- Abstract(参考訳): 強化学習(RL)アルゴリズムの重要な部分である経験再生法は、時間依存データから学習しながら、素早い相関やバイアスを軽減するように設計されている。
大まかに言えば、これらの手法は大きなバッファからバッチデータを描画することができ、時間的相関が降下アルゴリズムの性能を妨げない。
本研究では,近年開発され,理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
rerと楽観的経験リプレイ(oer)を組み合わせることで,神経関数近似下で安定なrer++を得る。
実験により,これは様々なタスクにおける優先経験再生(PER)のような手法よりも性能が優れており,計算の複雑さが著しく小さいことを示す。
RLの文献では、最も大きなTDエラー(OERのように)の例を選ぶか、連続したデータポイント(RERのように)でミニバッチを形成するとパフォーマンスが低下する。
しかし,これらの手法を組み合わせる手法は非常にうまく機能する。
関連論文リスト
- A Tighter Convergence Proof of Reverse Experience Replay [16.645967034009225]
強化学習において、Reverse Experience Replay (RER) は古典的経験リプレイ法よりも優れたサンプリング複雑性を実現するアルゴリズムである。
RERは、連続した状態-アクション-リワードを逆順に更新する学習アルゴリズムを必要とする。
理論的には、RERはより大きな学習率とより長いシーケンスで収束することを示す。
論文 参考訳(メタデータ) (2024-08-30T04:11:35Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Replay across Experiments: A Natural Extension of Off-Policy RL [18.545939667810565]
複数の実験にまたがってリプレイを効果的に拡張するフレームワークを提案する。
コアとなるReplay Across Experiments (RaE)は、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善する。
我々は、多数のRLアルゴリズムにまたがる利点を実証的に示し、移動と操作の両方にまたがる制御領域に挑戦する。
論文 参考訳(メタデータ) (2023-11-27T15:57:11Z) - Temporal Difference Learning with Experience Replay [3.5823366350053325]
時間差学習(TD)は、強化学習(RL)において最も一般的なアルゴリズムの1つである。
本稿では,マルコフ雑音項の簡易分解を行い,経験的再生を伴うTD学習における有限時間誤差境界を提供する。
論文 参考訳(メタデータ) (2023-06-16T10:25:43Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Learning Expected Emphatic Traces for Deep RL [32.984880782688535]
オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。
リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-07-12T13:14:03Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。