論文の概要: On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration
- arxiv url: http://arxiv.org/abs/2310.16173v1
- Date: Tue, 24 Oct 2023 20:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 18:07:58.601315
- Title: On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration
- Title(参考訳): $\epsilon$-Greedyによる深部Q-Networksの収束とサンプル複雑度解析について
- Authors: Shuai Zhang, Hongkang Li, Meng Wang, Miao Liu, Pin-Yu Chen, Songtao
Lu, Sijia Liu, Keerthiram Murugesan, Subhajit Chaudhury
- Abstract要約: 本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
- 参考スコア(独自算出の注目度): 86.71396285956044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a theoretical understanding of Deep Q-Network (DQN) with
the $\varepsilon$-greedy exploration in deep reinforcement learning. Despite
the tremendous empirical achievement of the DQN, its theoretical
characterization remains underexplored. First, the exploration strategy is
either impractical or ignored in the existing analysis. Second, in contrast to
conventional Q-learning algorithms, the DQN employs the target network and
experience replay to acquire an unbiased estimation of the mean-square Bellman
error (MSBE) utilized in training the Q-network. However, the existing
theoretical analysis of DQNs lacks convergence analysis or bypasses the
technical challenges by deploying a significantly overparameterized neural
network, which is not computationally efficient. This paper provides the first
theoretical convergence and sample complexity analysis of the practical setting
of DQNs with $\epsilon$-greedy policy. We prove an iterative procedure with
decaying $\epsilon$ converges to the optimal Q-value function geometrically.
Moreover, a higher level of $\epsilon$ values enlarges the region of
convergence but slows down the convergence, while the opposite holds for a
lower level of $\epsilon$ values. Experiments justify our established
theoretical insights on DQNs.
- Abstract(参考訳): 本稿では,深層強化学習における$\varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
DQNの壮大な経験的成果にもかかわらず、その理論的特徴は未解明のままである。
まず、探査戦略は非現実的か既存の分析で無視される。
第2に、従来のQ-ラーニングアルゴリズムとは対照的に、DQNはターゲットネットワークと経験リプレイを使用して、Q-ネットワークのトレーニングに使用する平均2乗ベルマン誤差(MSBE)のバイアスのない推定値を取得する。
しかし、dqnsの既存の理論解析では収束解析が欠如しており、計算効率に乏しい超パラメータニューラルネットワークを配置することで技術的な課題を回避している。
本稿では,DQNの実用的設定を$\epsilon$-greedyポリシーを用いて理論的収束とサンプル複雑性解析を行う。
減衰$\epsilon$が最適Q値関数に幾何学的に収束する反復手順を証明する。
さらに、$\epsilon$値のより高いレベルは収束領域を拡大するが収束を遅くするが、反対のレベルは$\epsilon$値の低レベルである。
実験はdqnsの確立した理論的洞察を正当化する。
関連論文リスト
- On the Global Convergence of Fitted Q-Iteration with Two-layer Neural
Network Parametrization [33.12181620473604]
本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。
このアプローチは,オーダー最適化である $tildemathcalO (1/epsilon2)$ のサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2022-11-14T19:00:24Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Toward Trainability of Deep Quantum Neural Networks [87.04438831673063]
ランダムな構造を持つ量子ニューラルネットワーク(QNN)は、回路深さと量子ビット数が増加するにつれて指数関数的に減少する勾配のため、トレーニング性に乏しい。
理論的保証のある深部QNNに対して、消滅する勾配問題に対する最初の実現可能な解決策を提供する。
論文 参考訳(メタデータ) (2021-12-30T10:27:08Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Deep Q-Learning: Theoretical Insights from an Asymptotic Analysis [3.9871041399267613]
ディープQラーニングは、よく知られたQ関数を近似するためにディープニューラルネットワークをトレーニングする、重要な強化学習アルゴリズムである。
実験室では非常に成功したが、理論と実践の深刻なギャップと正式な保証の欠如が現実世界での使用を妨げている。
本稿では、現実的な検証可能な仮定の下で、Deep Q-Learningの一般的なバージョンに関する理論的解析を行う。
論文 参考訳(メタデータ) (2020-08-25T07:59:20Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。