論文の概要: The Mean-Squared Error of Double Q-Learning
- arxiv url: http://arxiv.org/abs/2007.05034v3
- Date: Tue, 14 Jun 2022 19:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:41:07.471410
- Title: The Mean-Squared Error of Double Q-Learning
- Title(参考訳): ダブルq学習の平均二乗誤差
- Authors: Wentao Weng, Harsh Gupta, Niao He, Lei Ying, R. Srikant
- Abstract要約: 両Q-ラーニングの平均二乗誤差とQ-ラーニングの平均二乗誤差を理論的に比較する。
二重Q-ラーニングの平均二乗誤差はQ-ラーニングの平均二乗誤差と完全に等しいことを示す。
- 参考スコア(独自算出の注目度): 33.610380346576456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we establish a theoretical comparison between the asymptotic
mean-squared error of Double Q-learning and Q-learning. Our result builds upon
an analysis for linear stochastic approximation based on Lyapunov equations and
applies to both tabular setting and with linear function approximation,
provided that the optimal policy is unique and the algorithms converge. We show
that the asymptotic mean-squared error of Double Q-learning is exactly equal to
that of Q-learning if Double Q-learning uses twice the learning rate of
Q-learning and outputs the average of its two estimators. We also present some
practical implications of this theoretical observation using simulations.
- Abstract(参考訳): 本稿では,ダブルq学習とq学習の漸近平均二乗誤差を理論的に比較する。
この結果は、Lyapunov方程式に基づく線形確率近似の解析に基づいており、最適ポリシーが一意でありアルゴリズムが収束することを前提として、表の設定と線形関数近似の両方に適用される。
二重Q学習の漸近平均二乗誤差は、二重Q学習がQ学習の2倍の学習率を使用し、2つの推定器の平均を出力した場合のQ学習の誤差と完全に等しいことを示す。
また,シミュレーションを用いた理論観測の実践的意義についても述べる。
関連論文リスト
- An Analysis of Quantile Temporal-Difference Learning [54.025057954946156]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-17T20:22:12Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Error Bounds of the Invariant Statistics in Machine Learning of Ergodic
It\^o Diffusions [8.627408356707525]
エルゴード的伊藤拡散の機械学習の理論的基盤について検討する。
ドリフト係数と拡散係数の学習における誤差に対する1点および2点不変統計量の誤差の線形依存性を導出する。
論文 参考訳(メタデータ) (2021-05-21T02:55:59Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。