論文の概要: Actor Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2209.00532v1
- Date: Thu, 1 Sep 2022 15:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:25:19.172530
- Title: Actor Prioritized Experience Replay
- Title(参考訳): アクターの優先体験リプレイ
- Authors: Baturay Saglam, Furkan B. Mutlu, Dogan C. Cicek, Suleyman S. Kozat
- Abstract要約: 優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A widely-studied deep reinforcement learning (RL) technique known as
Prioritized Experience Replay (PER) allows agents to learn from transitions
sampled with non-uniform probability proportional to their temporal-difference
(TD) error. Although it has been shown that PER is one of the most crucial
components for the overall performance of deep RL methods in discrete action
domains, many empirical studies indicate that it considerably underperforms
actor-critic algorithms in continuous control. We theoretically show that actor
networks cannot be effectively trained with transitions that have large TD
errors. As a result, the approximate policy gradient computed under the
Q-network diverges from the actual gradient computed under the optimal
Q-function. Motivated by this, we introduce a novel experience replay sampling
framework for actor-critic methods, which also regards issues with stability
and recent findings behind the poor empirical performance of PER. The
introduced algorithm suggests a new branch of improvements to PER and schedules
effective and efficient training for both actor and critic networks. An
extensive set of experiments verifies our theoretical claims and demonstrates
that the introduced method significantly outperforms the competing approaches
and obtains state-of-the-art results over the standard off-policy actor-critic
algorithms.
- Abstract(参考訳): 優先度付き経験再現(PER)として知られる広く研究されている深層強化学習(RL)技術により、エージェントは時間差(TD)誤差に比例した一様でない確率でサンプリングされた遷移から学習することができる。
per は離散的行動領域における深い rl 法全体の性能にとって最も重要な要素の1つであることが示されているが、多くの経験的研究は、連続制御においてアクター-批判的アルゴリズムをかなり過小評価していることを示している。
理論的には、アクターネットワークは、大きなTDエラーを持つ遷移で効果的に訓練できないことを示す。
その結果、Q-ネットワークの下で計算された近似ポリシー勾配は、最適Q-関数で計算された実際の勾配から分岐する。
そこで本研究では,アクタ-批判的手法に対する新しい経験リプレイサンプリングフレームワークを導入し,安定性の問題やperの低経験的性能の背景にある最近の知見についても考察する。
導入されたアルゴリズムはPERの改良の新たなブランチを提案し、アクターネットワークと批評家ネットワークの両方で効率的かつ効率的なトレーニングをスケジュールする。
我々の理論的主張を検証し、提案手法が競合するアプローチを著しく上回り、標準的な非政治的アクター批判アルゴリズムよりも最先端の結果が得られることを示した。
関連論文リスト
- Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z) - SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning [100.78715211319016]
オフライン強化学習は、オンラインインタラクションなしで、事前に収集されたデータセットから最適なポリシーを学ぶことを目的としている。
データセットは基礎となるモデルに関する限られた情報しか含まないため、オフラインRLは急激な相関に弱い。
本稿では,不確実なペナルティを政策評価に組み込むことにより,突発的な相関を低減できる実用的で理論的に保証されたアルゴリズムSCOREを提案する。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。