論文の概要: AWD3: Dynamic Reduction of the Estimation Bias
- arxiv url: http://arxiv.org/abs/2111.06780v1
- Date: Fri, 12 Nov 2021 15:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:29:35.232073
- Title: AWD3: Dynamic Reduction of the Estimation Bias
- Title(参考訳): AWD3: 推定バイアスの動的低減
- Authors: Dogan C. Cicek, Enes Duran, Baturay Saglam, Kagan Kaya, Furkan B.
Mutlu, Suleyman S. Kozat
- Abstract要約: 本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-based deep Reinforcement Learning (RL) algorithms suffer from the
estimation bias primarily caused by function approximation and temporal
difference (TD) learning. This problem induces faulty state-action value
estimates and therefore harms the performance and robustness of the learning
algorithms. Although several techniques were proposed to tackle, learning
algorithms still suffer from this bias. Here, we introduce a technique that
eliminates the estimation bias in off-policy continuous control algorithms
using the experience replay mechanism. We adaptively learn the weighting
hyper-parameter beta in the Weighted Twin Delayed Deep Deterministic Policy
Gradient algorithm. Our method is named Adaptive-WD3 (AWD3). We show through
continuous control environments of OpenAI gym that our algorithm matches or
outperforms the state-of-the-art off-policy policy gradient learning
algorithms.
- Abstract(参考訳): 価値に基づく深層強化学習(RL)アルゴリズムは、主に関数近似と時間差(TD)学習に起因する推定バイアスに悩まされる。
この問題は、不良状態-作用値の推定を誘導し、学習アルゴリズムの性能と堅牢性を損なう。
いくつかの手法が提案されているが、学習アルゴリズムはこのバイアスに苦しんでいる。
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
我々は、重み付けハイパーパラメータベータを重み付けした重み付きツイン遅延Deep Deterministic Policy Gradientアルゴリズムで適応的に学習する。
本手法をadaptive-wd3 (awd3) と呼ぶ。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
関連論文リスト
- Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks [0.0]
本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
論文 参考訳(メタデータ) (2022-12-11T18:25:24Z) - Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning [36.643572071860554]
適応校正批判(ACC)と呼ばれる一般的な手法を提案する。
ACCは、最も最近の高分散であるが、政治的に偏りのないロールアウトを使用して、低分散時間差ターゲットのバイアスを軽減する。
ACC は TD3 にさらに適用することで非常に汎用的であり、この設定でも性能が向上していることを示す。
論文 参考訳(メタデータ) (2021-11-24T18:07:33Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - An Empirical Comparison of Off-policy Prediction Learning Algorithms on
the Collision Task [9.207173776826403]
他の政策に従えば、ある政策のデータからある政策の価値関数を学習するオフ政治予測は、強化学習において最も困難なサブプロブレムの1つだ。
本稿では,線形関数近似を用いた11個の非政治学習アルゴリズムによる経験的結果を示す。
論文 参考訳(メタデータ) (2021-06-02T03:45:43Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。