論文の概要: Revisiting Prioritized Experience Replay: A Value Perspective
- arxiv url: http://arxiv.org/abs/2102.03261v1
- Date: Fri, 5 Feb 2021 16:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 13:01:13.690876
- Title: Revisiting Prioritized Experience Replay: A Value Perspective
- Title(参考訳): Revisiting Prioritized Experience Replay: 価値の視点
- Authors: Ang A. Li, Zongqing Lu, Chenglin Miao
- Abstract要約: 我々は、経験リプレイにより、過去の経験を利用して累積報酬を最大化することができると論じている。
我々のフレームワークはRLの2つの重要な量: $|textTD|$と経験の価値をリンクしている。
実験により,アタリゲームの最大エントロピーRLが向上することを示す。
- 参考スコア(独自算出の注目度): 21.958500332929898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay enables off-policy reinforcement learning (RL) agents to
utilize past experiences to maximize the cumulative reward. Prioritized
experience replay that weighs experiences by the magnitude of their
temporal-difference error ($|\text{TD}|$) significantly improves the learning
efficiency. But how $|\text{TD}|$ is related to the importance of experience is
not well understood. We address this problem from an economic perspective, by
linking $|\text{TD}|$ to value of experience, which is defined as the value
added to the cumulative reward by accessing the experience. We theoretically
show the value metrics of experience are upper-bounded by $|\text{TD}|$ for
Q-learning. Furthermore, we successfully extend our theoretical framework to
maximum-entropy RL by deriving the lower and upper bounds of these value
metrics for soft Q-learning, which turn out to be the product of $|\text{TD}|$
and "on-policyness" of the experiences. Our framework links two important
quantities in RL: $|\text{TD}|$ and value of experience. We empirically show
that the bounds hold in practice, and experience replay using the upper bound
as priority improves maximum-entropy RL in Atari games.
- Abstract(参考訳): experience replayは、オフ・ポリシー強化学習(rl)エージェントが過去の経験を利用して累積報酬を最大化することができる。
時間差誤差($|\text{TD}|$)の大きさで経験を量る優先体験リプレイは、学習効率を大幅に改善します。
しかし、いかに$|\text{td}|$が経験の重要性と関係しているかは、よく分かっていない。
我々は経済的な観点から、経験値に$|\text{td}|$をリンクすることでこの問題に対処し、経験にアクセスすることで累積報酬に付加する値として定義される。
理論的には、経験値のメトリクスは、q-learningの$|\text{td}|$で上限されている。
さらに, ソフトq-ラーニングにおけるこれらの価値指標の下限と上限を導出することにより, 理論的な枠組みを最大エントロピーrlに拡張し, 経験の「|\text{td}|$」および「オン・ポリシネス」の積となった。
私たちのフレームワークはRLの2つの重要な数量をリンクします:$|\text{TD}|$と経験値。
また,アタリゲームにおける最大エントロピーrlの優先度が向上し,オーバーバウンドを用いたリプレイを経験できることを実証的に示す。
関連論文リスト
- Variance Reduction via Resampling and Experience Replay [6.66746639974303]
モデルが$U$-と$V$-statisticsを使ってリプレイを経験する理論的枠組みを提案する。
本稿では,LSTDアルゴリズムとPDEに基づくモデルフリーアルゴリズムを用いて,政策評価タスクに適用する。
我々は,このフレームワークをカーネルリッジレグレッションに拡張し,経験リプレイに基づく手法により従来の$O(n3)$から計算コストを削減し,分散を同時に低減することを示した。
論文 参考訳(メタデータ) (2025-02-01T18:46:08Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Double Prioritized State Recycled Experience Replay [3.42658286826597]
本稿では,DPSR (Double-prioritized State-Recycled) 体験再生法を提案する。
我々は、この手法をDeep Q-Networks (DQN) で使用し、最先端の結果を得た。
論文 参考訳(メタデータ) (2020-07-08T08:36:41Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。