論文の概要: Full Gradient Deep Reinforcement Learning for Average-Reward Criterion
- arxiv url: http://arxiv.org/abs/2304.03729v1
- Date: Fri, 7 Apr 2023 16:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 11:28:28.959639
- Title: Full Gradient Deep Reinforcement Learning for Average-Reward Criterion
- Title(参考訳): 平均回帰基準に対する完全勾配深部強化学習
- Authors: Tejas Pagare, Vivek Borkar, Konstantin Avrachenkov
- Abstract要約: RVI Q-Learning と最近提案した差分Q-Learning をニューラルファンクション近似設定で比較した。
また、これを拡張して、マルコフのレスト・マルチアーム・バンディットのウィトル指標を学習する。
- 参考スコア(独自算出の注目度): 0.17188280334580194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend the provably convergent Full Gradient DQN algorithm for discounted
reward Markov decision processes from Avrachenkov et al. (2021) to average
reward problems. We experimentally compare widely used RVI Q-Learning with
recently proposed Differential Q-Learning in the neural function approximation
setting with Full Gradient DQN and DQN. We also extend this to learn Whittle
indices for Markovian restless multi-armed bandits. We observe a better
convergence rate of the proposed Full Gradient variant across different tasks.
- Abstract(参考訳): 我々は,avrachenkovら (2021) の報酬マルコフ決定過程を平均報酬問題に短縮するために,十分に収束する全勾配dqnアルゴリズムを拡張した。
広範に使われているRVI Q-Learningと最近提案された差分Q-Learningを、フルグラディエントDQNとDQNを用いた神経機能近似設定で比較した。
私たちはまた、マルコフのrestless multi-armed banditsのウィットルインデックスを学ぶためにこれを拡張します。
我々は,提案するフルグラデーション変種について,異なるタスクにまたがってより高い収束率を観測する。
関連論文リスト
- Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Full Gradient DQN Reinforcement Learning: A Provably Convergent Scheme [0.0]
O.d.eを用いてDQN強化学習アルゴリズムを近似スキームとして解析する。
(「常微分方程式」)アプローチ。
そこで本研究では,音の理論的基礎を持つフルグラデーションdqn(fg-dqn,略してfg-dqn)と呼ばれる修正スキームを提案し,サンプル問題に対する元のスキームと比較する。
論文 参考訳(メタデータ) (2021-03-10T10:35:13Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - Whittle index based Q-learning for restless bandits with average reward [0.3553493344868413]
Q-learning と Whittle index のパラダイムを用いて,多腕レストレスバンディットに対する新しい強化学習アルゴリズムを提案する。
我々は、Whittleインデックスポリシーの構造を利用して、Q学習の検索スペースを削減し、大きな計算ゲインをもたらす。
論文 参考訳(メタデータ) (2020-04-29T18:43:36Z) - On the Reduction of Variance and Overestimation of Deep Q-Learning [0.0]
本稿では,分散度と過大評価量を削減する方法として,深層Q-LearningアルゴリズムにおけるDropout手法を提案する。
また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。
論文 参考訳(メタデータ) (2019-10-14T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。