論文の概要: Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.12673v1
- Date: Wed, 24 Nov 2021 18:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:02:18.006685
- Title: Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための適応的校正評価
- Authors: Nicolai Dorka, Joschka Boedecker, Wolfram Burgard
- Abstract要約: 適応校正批判(ACC)と呼ばれる一般的な手法を提案する。
ACCは、最も最近の高分散であるが、政治的に偏りのないロールアウトを使用して、低分散時間差ターゲットのバイアスを軽減する。
ACC は TD3 にさらに適用することで非常に汎用的であり、この設定でも性能が向上していることを示す。
- 参考スコア(独自算出の注目度): 36.643572071860554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate value estimates are important for off-policy reinforcement learning.
Algorithms based on temporal difference learning typically are prone to an
over- or underestimation bias building up over time. In this paper, we propose
a general method called Adaptively Calibrated Critics (ACC) that uses the most
recent high variance but unbiased on-policy rollouts to alleviate the bias of
the low variance temporal difference targets. We apply ACC to Truncated
Quantile Critics, which is an algorithm for continuous control that allows
regulation of the bias with a hyperparameter tuned per environment. The
resulting algorithm adaptively adjusts the parameter during training rendering
hyperparameter search unnecessary and sets a new state of the art on the OpenAI
gym continuous control benchmark among all algorithms that do not tune
hyperparameters for each environment. Additionally, we demonstrate that ACC is
quite general by further applying it to TD3 and showing an improved performance
also in this setting.
- Abstract(参考訳): 正確な値推定は、オフポリシー強化学習にとって重要である。
時間差学習に基づくアルゴリズムは、時間とともに蓄積される過度または過小評価バイアスを引き起こす。
本稿では,近年の高分散だが非バイアスのオン・ポリシー・ロールアウトを用いて,低分散時間差目標のバイアスを緩和するacc(adaptively calibrated critics)という一般的な手法を提案する。
我々は、環境ごとに調整されたハイパーパラメータによるバイアスの制御を可能にする連続制御アルゴリズムであるTruncated Quantile CriticsにACCを適用した。
得られたアルゴリズムは、ハイパーパラメータ探索のトレーニング中にパラメータを適応的に調整し、各環境にハイパーパラメータをチューニングしない全てのアルゴリズムの中で、OpenAIのジム連続制御ベンチマークに新しい技術状態を設定する。
さらに,さらにtd3に適用することにより,accが極めて汎用的であることを実証し,この設定での性能も向上した。
関連論文リスト
- ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Automating Control of Overestimation Bias for Continuous Reinforcement
Learning [65.63607016094305]
バイアス補正を導くためのデータ駆動型手法を提案する。
我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2021-10-26T09:27:12Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。