論文の概要: Deep Reinforcement Learning with Weighted Q-Learning
- arxiv url: http://arxiv.org/abs/2003.09280v3
- Date: Mon, 13 Jun 2022 12:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 21:50:00.516830
- Title: Deep Reinforcement Learning with Weighted Q-Learning
- Title(参考訳): 重み付きQ-Learningによる深層強化学習
- Authors: Andrea Cini, Carlo D'Eramo, Jan Peters, Cesare Alippi
- Abstract要約: Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
Q-Learningは、期待値の雑音の最大過度推定を用いて学習するため、正の偏りがあることが知られている。
提案手法は, 提案手法により, バイアスw.r.t.関連ベースラインを減らし, その優位性を示す実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 43.823659028488876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms based on Q-learning are driving Deep
Reinforcement Learning (DRL) research towards solving complex problems and
achieving super-human performance on many of them. Nevertheless, Q-Learning is
known to be positively biased since it learns by using the maximum over noisy
estimates of expected values. Systematic overestimation of the action values
coupled with the inherently high variance of DRL methods can lead to
incrementally accumulate errors, causing learning algorithms to diverge.
Ideally, we would like DRL agents to take into account their own uncertainty
about the optimality of each action, and be able to exploit it to make more
informed estimations of the expected return. In this regard, Weighted
Q-Learning (WQL) effectively reduces bias and shows remarkable results in
stochastic environments. WQL uses a weighted sum of the estimated action
values, where the weights correspond to the probability of each action value
being the maximum; however, the computation of these probabilities is only
practical in the tabular setting. In this work, we provide methodological
advances to benefit from the WQL properties in DRL, by using neural networks
trained with Dropout as an effective approximation of deep Gaussian processes.
In particular, we adopt the Concrete Dropout variant to obtain calibrated
estimates of epistemic uncertainty in DRL. The estimator, then, is obtained by
taking several stochastic forward passes through the action-value network and
computing the weights in a Monte Carlo fashion. Such weights are Bayesian
estimates of the probability of each action value corresponding to the maximum
w.r.t. a posterior probability distribution estimated by Dropout. We show how
our novel Deep Weighted Q-Learning algorithm reduces the bias w.r.t. relevant
baselines and provides empirical evidence of its advantages on representative
benchmarks.
- Abstract(参考訳): Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決と超人的パフォーマンスの実現に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
にもかかわらず、Q-Learningは期待値の雑音の最大過度推定を用いて学習するため、正のバイアスを受けることが知られている。
動作値の体系的過大評価とDRL法の本質的に高い分散は、漸進的にエラーを蓄積させ、学習アルゴリズムのばらつきを引き起こす。
理想的には、DRLエージェントがそれぞれのアクションの最適性について不確実性を考慮し、それを利用して期待されるリターンのより詳細な推定を行えるようにしたい。
この点において、Weighted Q-Learning(WQL)はバイアスを効果的に低減し、確率的環境において顕著な結果を示す。
WQLは推定された作用値の重み付け和を使用し、重み付けは各作用値の最大値の確率に対応するが、これらの確率の計算は表の設定でのみ実用的である。
本研究では,ディープガウス過程の効果的な近似として,ドロップアウトで訓練されたニューラルネットワークを用いて,drlのwql特性の恩恵を受けるための方法論的進歩を提案する。
特に, DRLにおける上皮性不確かさのキャリブレーション値を求めるために, コンクリートドロップアウト変種を採用する。
推定器は、いくつかの確率的前方通過をアクション値ネットワークを通過し、モンテカルロ方式で重みを計算することによって得られる。
そのような重みは、ドロップアウトによって推定される後方確率分布の最大 w.r.t. に対応する各アクション値の確率のベイズ推定である。
そこで本研究では, 重み付きq-learningアルゴリズムを用いて, バイアスw.r.t.のベースラインを低減し, そのアドバンテージを代表ベンチマークで実証的に証明する。
関連論文リスト
- Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient
Kernels [60.35011738807833]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Variance Control for Distributional Reinforcement Learning [22.407803118899512]
我々は,新しい推定器であるemphQuantiled Expansion Mean(QEM)を構築し,統計的観点から新しいDRLアルゴリズム(QEMRL)を導入する。
我々は,Atari と Mujoco のベンチマークタスクに対して,QEMRL アルゴリズムを広範囲に評価した。
論文 参考訳(メタデータ) (2023-07-30T07:25:18Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。