論文の概要: The Mean-Squared Error of Double Q-Learning
- arxiv url: http://arxiv.org/abs/2007.05034v3
- Date: Tue, 14 Jun 2022 19:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:41:07.471410
- Title: The Mean-Squared Error of Double Q-Learning
- Title(参考訳): ダブルq学習の平均二乗誤差
- Authors: Wentao Weng, Harsh Gupta, Niao He, Lei Ying, R. Srikant
- Abstract要約: 両Q-ラーニングの平均二乗誤差とQ-ラーニングの平均二乗誤差を理論的に比較する。
二重Q-ラーニングの平均二乗誤差はQ-ラーニングの平均二乗誤差と完全に等しいことを示す。
- 参考スコア(独自算出の注目度): 33.610380346576456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we establish a theoretical comparison between the asymptotic
mean-squared error of Double Q-learning and Q-learning. Our result builds upon
an analysis for linear stochastic approximation based on Lyapunov equations and
applies to both tabular setting and with linear function approximation,
provided that the optimal policy is unique and the algorithms converge. We show
that the asymptotic mean-squared error of Double Q-learning is exactly equal to
that of Q-learning if Double Q-learning uses twice the learning rate of
Q-learning and outputs the average of its two estimators. We also present some
practical implications of this theoretical observation using simulations.
- Abstract(参考訳): 本稿では,ダブルq学習とq学習の漸近平均二乗誤差を理論的に比較する。
この結果は、Lyapunov方程式に基づく線形確率近似の解析に基づいており、最適ポリシーが一意でありアルゴリズムが収束することを前提として、表の設定と線形関数近似の両方に適用される。
二重Q学習の漸近平均二乗誤差は、二重Q学習がQ学習の2倍の学習率を使用し、2つの推定器の平均を出力した場合のQ学習の誤差と完全に等しいことを示す。
また,シミュレーションを用いた理論観測の実践的意義についても述べる。
関連論文リスト
- Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-17T20:22:12Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。