論文の概要: An Elementary Proof that Q-learning Converges Almost Surely
- arxiv url: http://arxiv.org/abs/2108.02827v1
- Date: Thu, 5 Aug 2021 19:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 02:14:09.400071
- Title: An Elementary Proof that Q-learning Converges Almost Surely
- Title(参考訳): Q-learningがほぼ確実に収束する初歩的証明
- Authors: Matthew T. Regehr, Alex Ayoub
- Abstract要約: WatkinsとDayanのQ-learningはモデルなし強化学習アルゴリズムである。
本稿では,Q-ラーニングが収束する完全かつ(ほぼ)自己完結した証明を再現する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watkins' and Dayan's Q-learning is a model-free reinforcement learning
algorithm that iteratively refines an estimate for the optimal action-value
function of an MDP by stochastically "visiting" many state-ation pairs [Watkins
and Dayan, 1992]. Variants of the algorithm lie at the heart of numerous recent
state-of-the-art achievements in reinforcement learning, including the
superhuman Atari-playing deep Q-network [Mnih et al., 2015]. The goal of this
paper is to reproduce a precise and (nearly) self-contained proof that
Q-learning converges. Much of the available literature leverages powerful
theory to obtain highly generalizable results in this vein. However, this
approach requires the reader to be familiar with and make many deep connections
to different research areas. A student seeking to deepen their understand of
Q-learning risks becoming caught in a vicious cycle of "RL-learning Hell". For
this reason, we give a complete proof from start to finish using only one
external result from the field of stochastic approximation, despite the fact
that this minimal dependence on other results comes at the expense of some
"shininess".
- Abstract(参考訳): watkins と dayan の q-learning はモデルフリーの強化学習アルゴリズムであり、多くの状態付けペア [watkins と dayan, 1992] を確率的に「訪問」することで mdp の最適動作値関数の推定を反復的に洗練する。
アルゴリズムの変種は、スーパーヒューマンアタリプレイングディープq-ネットワーク(mnih et al., 2015)を含む、強化学習における最新の多くの成果の中心にある。
本論文の目的は,q-learningが収束する正確な(ほぼ)自己完結型証明を再現することである。
利用可能な文献の多くは、この脈絡で非常に一般化可能な結果を得るために強力な理論を活用している。
しかし、このアプローチでは読者に親しみやすく、さまざまな研究領域に多くの深いつながりを持たせる必要がある。
学生は「RL学習地獄」の悪循環の中で、Q学習リスクの理解を深めようとしている。
このため、この最小限の他の結果への依存が「輝き」を犠牲にするという事実にもかかわらず、確率近似の分野から1つの外部結果のみを用いて開始から終了までの完全な証明を与える。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-17T20:22:12Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Deep Q-Learning: Theoretical Insights from an Asymptotic Analysis [3.9871041399267613]
ディープQラーニングは、よく知られたQ関数を近似するためにディープニューラルネットワークをトレーニングする、重要な強化学習アルゴリズムである。
実験室では非常に成功したが、理論と実践の深刻なギャップと正式な保証の欠如が現実世界での使用を妨げている。
本稿では、現実的な検証可能な仮定の下で、Deep Q-Learningの一般的なバージョンに関する理論的解析を行う。
論文 参考訳(メタデータ) (2020-08-25T07:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。