論文の概要: Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control
- arxiv url: http://arxiv.org/abs/2109.11788v1
- Date: Fri, 24 Sep 2021 07:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:28:17.411446
- Title: Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control
- Title(参考訳): 連続制御における推定バイアスのパラメータフリー決定論的低減
- Authors: Baturay Saglam, Enes Duran, Dogan C. Cicek, Furkan B. Mutlu, Suleyman
S. Kozat
- Abstract要約: パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximation of the value functions in value-based deep reinforcement
learning systems induces overestimation bias, resulting in suboptimal policies.
We show that when the reinforcement signals received by the agents have a high
variance, deep actor-critic approaches that overcome the overestimation bias
lead to a substantial underestimation bias. We introduce a parameter-free,
novel deep Q-learning variant to reduce this underestimation bias for
continuous control. By obtaining fixed weights in computing the critic
objective as a linear combination of the approximate critic functions, our
Q-value update rule integrates the concepts of Clipped Double Q-learning and
Maxmin Q-learning. We test the performance of our improvement on a set of
MuJoCo and Box2D continuous control tasks and find that it improves the
state-of-the-art and outperforms the baseline algorithms in the majority of the
environments.
- Abstract(参考訳): 価値に基づく深層強化学習システムにおける値関数の近似は過大評価バイアスを誘発し、亜最適政策をもたらす。
エージェントが受信した補強信号のばらつきが大きい場合,過大評価バイアスを克服する深い俳優-批判的アプローチが,実質的な過大評価バイアスにつながることを示す。
パラメータフリーで新しい深層q学習型を導入し,この過大評価バイアスを低減し,連続制御を行う。
近似的批判関数の線形結合としての批判対象の計算における固定重みを求めることにより、Q値更新ルールはClipped Double Q-learningとMaxmin Q-learningの概念を統合する。
我々は, MuJoCo と Box2D の連続制御タスクのセットにおける改良点の性能を検証し,それが最先端のアルゴリズムを改善し,ほとんどの環境におけるベースラインアルゴリズムより優れていることを確認する。
関連論文リスト
- A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Automating Control of Overestimation Bias for Continuous Reinforcement
Learning [65.63607016094305]
バイアス補正を導くためのデータ駆動型手法を提案する。
我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2021-10-26T09:27:12Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Decorrelated Double Q-learning [4.982806898121435]
本稿では,D2Q(Decorrelated Double Q-learning)を導入し,値関数近似器間の相関を小さくする。
MuJoCo連続制御タスクのスイートにおける実験結果から,非相関な二重Q-ラーニングが性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2020-06-12T05:59:05Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。