論文の概要: Full Gradient DQN Reinforcement Learning: A Provably Convergent Scheme
- arxiv url: http://arxiv.org/abs/2103.05981v1
- Date: Wed, 10 Mar 2021 10:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:39:31.859766
- Title: Full Gradient DQN Reinforcement Learning: A Provably Convergent Scheme
- Title(参考訳): 完全なグラディエントDQN強化学習: おそらく収束型スキーム
- Authors: K. Avrachenkov, V.S. Borkar, H.P. Dolhare, K. Patil
- Abstract要約: O.d.eを用いてDQN強化学習アルゴリズムを近似スキームとして解析する。
(「常微分方程式」)アプローチ。
そこで本研究では,音の理論的基礎を持つフルグラデーションdqn(fg-dqn,略してfg-dqn)と呼ばれる修正スキームを提案し,サンプル問題に対する元のスキームと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the DQN reinforcement learning algorithm as a stochastic
approximation scheme using the o.d.e. (for `ordinary differential equation')
approach and point out certain theoretical issues. We then propose a modified
scheme called Full Gradient DQN (FG-DQN, for short) that has a sound
theoretical basis and compare it with the original scheme on sample problems.
We observe a better performance for FG-DQN.
- Abstract(参考訳): DQN強化学習アルゴリズムを確率近似法としてo.d.eを用いて解析する。
(正規微分方程式) のアプローチと、ある理論的問題を指摘する。
そこで本研究では,音の理論的基礎を持つフルグラデーションdqn(fg-dqn,略してfg-dqn)と呼ばれる修正スキームを提案し,サンプル問題に対する元のスキームと比較する。
我々はFG-DQNのより良い性能を観察する。
関連論文リスト
- Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Full Gradient Deep Reinforcement Learning for Average-Reward Criterion [0.17188280334580194]
RVI Q-Learning と最近提案した差分Q-Learning をニューラルファンクション近似設定で比較した。
また、これを拡張して、マルコフのレスト・マルチアーム・バンディットのウィトル指標を学習する。
論文 参考訳(メタデータ) (2023-04-07T16:50:46Z) - Neural Basis Functions for Accelerating Solutions to High Mach Euler
Equations [63.8376359764052]
ニューラルネットワークを用いた偏微分方程式(PDE)の解法を提案する。
ニューラルネットワークの集合を縮小順序 Proper Orthogonal Decomposition (POD) に回帰する。
これらのネットワークは、所定のPDEのパラメータを取り込み、PDEに還元順序近似を計算する分岐ネットワークと組み合わせて使用される。
論文 参考訳(メタデータ) (2022-08-02T18:27:13Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Preventing Value Function Collapse in Ensemble {Q}-Learning by
Maximizing Representation Diversity [0.0]
MaxminとEnsemble Q-learningアルゴリズムは、過大評価バイアスを減らすために、学習者のアンサンブルが提供する異なる推定値を使用している。
残念ながら、これらの学習者はパラメトリックまたは表現空間において同じ点に収束し、古典的な単一ニューラルネットワークDQNに戻ることができる。
経済理論とコンセンサス最適化から着想を得た5つの正規化関数を提案し,比較する。
論文 参考訳(メタデータ) (2020-06-24T15:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。