論文の概要: Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent
- arxiv url: http://arxiv.org/abs/2007.07422v1
- Date: Wed, 15 Jul 2020 01:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:29:38.417268
- Title: Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent
- Title(参考訳): 勾配降下に対する適応と運動量再開を伴うq-learningの解析
- Authors: Bowen Weng, Huaqing Xiong, Yingbin Liang, Wei Zhang
- Abstract要約: AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
- 参考スコア(独自算出の注目度): 47.3692506462581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing convergence analyses of Q-learning mostly focus on the vanilla
stochastic gradient descent (SGD) type of updates. Despite the Adaptive Moment
Estimation (Adam) has been commonly used for practical Q-learning algorithms,
there has not been any convergence guarantee provided for Q-learning with such
type of updates. In this paper, we first characterize the convergence rate for
Q-AMSGrad, which is the Q-learning algorithm with AMSGrad update (a commonly
adopted alternative of Adam for theoretical analysis). To further improve the
performance, we propose to incorporate the momentum restart scheme to
Q-AMSGrad, resulting in the so-called Q-AMSGradR algorithm. The convergence
rate of Q-AMSGradR is also established. Our experiments on a linear quadratic
regulator problem show that the two proposed Q-learning algorithms outperform
the vanilla Q-learning with SGD updates. The two algorithms also exhibit
significantly better performance than the DQN learning method over a batch of
Atari 2600 games.
- Abstract(参考訳): 既存のQ-ラーニングの収束分析は、主にバニラ確率勾配降下(SGD)タイプの更新に焦点を当てている。
アダプティブモーメント推定(adam)は実用的なq-learningアルゴリズムで一般的に使用されているが、この種の更新を伴うq-learningに提供される収束保証はない。
本稿では,AMSGrad更新を用いたQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
Q-AMSGradRの収束速度も確立される。
線形二次レギュレータ問題に対する実験により,提案する2つのq学習アルゴリズムが,sgd更新によるバニラq学習よりも優れていることが示された。
この2つのアルゴリズムは、Atari 2600ゲームよりも、DQN学習法よりもはるかに優れた性能を示す。
関連論文リスト
- Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-17T20:22:12Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - GenCos' Behaviors Modeling Based on Q Learning Improved by Dichotomy [3.14969586104215]
本稿では,新しいQ学習アルゴリズムを提案する。
状態空間とアクション空間とを段階的に二分することにより、Qテーブルの更新プロセスを変更する。
繰り返しCournotゲームにおけるシミュレーションの結果,提案アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2020-08-04T13:48:09Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。