論文の概要: Ensemble Bootstrapping for Q-Learning
- arxiv url: http://arxiv.org/abs/2103.00445v1
- Date: Sun, 28 Feb 2021 10:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:34:22.213832
- Title: Ensemble Bootstrapping for Q-Learning
- Title(参考訳): Q-Learningのためのアンサンブルブートストラップ
- Authors: Oren Peer, Chen Tessler, Nadav Merlis, Ron Meir
- Abstract要約: Ensemble Bootstrapped Q-Learning(EBQL)という新しいバイアス低減アルゴリズムを紹介します。
EBQLライクな更新は、独立確率変数の集合の最大平均を推定する際に低いMSEをもたらす。
過大評価と過小評価の両方が準最適性能をもたらす領域が存在することを示す。
- 参考スコア(独自算出の注目度): 15.07549655582389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning (QL), a common reinforcement learning algorithm, suffers from
over-estimation bias due to the maximization term in the optimal Bellman
operator. This bias may lead to sub-optimal behavior. Double-Q-learning tackles
this issue by utilizing two estimators, yet results in an under-estimation
bias. Similar to over-estimation in Q-learning, in certain scenarios, the
under-estimation bias may degrade performance. In this work, we introduce a new
bias-reduced algorithm called Ensemble Bootstrapped Q-Learning (EBQL), a
natural extension of Double-Q-learning to ensembles. We analyze our method both
theoretically and empirically. Theoretically, we prove that EBQL-like updates
yield lower MSE when estimating the maximal mean of a set of independent random
variables. Empirically, we show that there exist domains where both over and
under-estimation result in sub-optimal performance. Finally, We demonstrate the
superior performance of a deep RL variant of EBQL over other deep QL algorithms
for a suite of ATARI games.
- Abstract(参考訳): 一般的な強化学習アルゴリズムであるQラーニング(QL)は、最適なベルマン演算子の最大化項による過大評価バイアスに悩まされる。
このバイアスは最適でない行動につながる可能性がある。
ダブルQ学習は2つの推定器を利用することでこの問題に対処するが、結果として過小評価バイアスが生じる。
q-learningの過剰推定と同様に、特定のシナリオでは、過推定バイアスはパフォーマンスを低下させる可能性がある。
本研究では,2次Q学習からアンサンブルへの自然な拡張であるEnsemble Bootstrapped Q-Learning(EBQL)というバイアス低減アルゴリズムを導入する。
我々は理論的にも経験的にも方法を分析する。
理論的には、独立確率変数の集合の最大平均を推定する場合、ebqlライクな更新はmseを低下させる。
経験的に、オーバーとアンダー推定の両方が最適な性能をもたらす領域が存在することを示す。
最後に、AtARIゲームスイートの他のディープQLアルゴリズムよりも、EBQLのディープRLバリアントの優れたパフォーマンスを実証します。
関連論文リスト
- Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文 参考訳(メタデータ) (2021-11-03T07:30:19Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。