論文の概要: Deep Reinforcement Learning with Weighted Q-Learning
- arxiv url: http://arxiv.org/abs/2003.09280v3
- Date: Mon, 13 Jun 2022 12:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 21:50:00.516830
- Title: Deep Reinforcement Learning with Weighted Q-Learning
- Title(参考訳): 重み付きQ-Learningによる深層強化学習
- Authors: Andrea Cini, Carlo D'Eramo, Jan Peters, Cesare Alippi
- Abstract要約: Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
Q-Learningは、期待値の雑音の最大過度推定を用いて学習するため、正の偏りがあることが知られている。
提案手法は, 提案手法により, バイアスw.r.t.関連ベースラインを減らし, その優位性を示す実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 43.823659028488876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms based on Q-learning are driving Deep
Reinforcement Learning (DRL) research towards solving complex problems and
achieving super-human performance on many of them. Nevertheless, Q-Learning is
known to be positively biased since it learns by using the maximum over noisy
estimates of expected values. Systematic overestimation of the action values
coupled with the inherently high variance of DRL methods can lead to
incrementally accumulate errors, causing learning algorithms to diverge.
Ideally, we would like DRL agents to take into account their own uncertainty
about the optimality of each action, and be able to exploit it to make more
informed estimations of the expected return. In this regard, Weighted
Q-Learning (WQL) effectively reduces bias and shows remarkable results in
stochastic environments. WQL uses a weighted sum of the estimated action
values, where the weights correspond to the probability of each action value
being the maximum; however, the computation of these probabilities is only
practical in the tabular setting. In this work, we provide methodological
advances to benefit from the WQL properties in DRL, by using neural networks
trained with Dropout as an effective approximation of deep Gaussian processes.
In particular, we adopt the Concrete Dropout variant to obtain calibrated
estimates of epistemic uncertainty in DRL. The estimator, then, is obtained by
taking several stochastic forward passes through the action-value network and
computing the weights in a Monte Carlo fashion. Such weights are Bayesian
estimates of the probability of each action value corresponding to the maximum
w.r.t. a posterior probability distribution estimated by Dropout. We show how
our novel Deep Weighted Q-Learning algorithm reduces the bias w.r.t. relevant
baselines and provides empirical evidence of its advantages on representative
benchmarks.
- Abstract(参考訳): Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決と超人的パフォーマンスの実現に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
にもかかわらず、Q-Learningは期待値の雑音の最大過度推定を用いて学習するため、正のバイアスを受けることが知られている。
動作値の体系的過大評価とDRL法の本質的に高い分散は、漸進的にエラーを蓄積させ、学習アルゴリズムのばらつきを引き起こす。
理想的には、DRLエージェントがそれぞれのアクションの最適性について不確実性を考慮し、それを利用して期待されるリターンのより詳細な推定を行えるようにしたい。
この点において、Weighted Q-Learning(WQL)はバイアスを効果的に低減し、確率的環境において顕著な結果を示す。
WQLは推定された作用値の重み付け和を使用し、重み付けは各作用値の最大値の確率に対応するが、これらの確率の計算は表の設定でのみ実用的である。
本研究では,ディープガウス過程の効果的な近似として,ドロップアウトで訓練されたニューラルネットワークを用いて,drlのwql特性の恩恵を受けるための方法論的進歩を提案する。
特に, DRLにおける上皮性不確かさのキャリブレーション値を求めるために, コンクリートドロップアウト変種を採用する。
推定器は、いくつかの確率的前方通過をアクション値ネットワークを通過し、モンテカルロ方式で重みを計算することによって得られる。
そのような重みは、ドロップアウトによって推定される後方確率分布の最大 w.r.t. に対応する各アクション値の確率のベイズ推定である。
そこで本研究では, 重み付きq-learningアルゴリズムを用いて, バイアスw.r.t.のベースラインを低減し, そのアドバンテージを代表ベンチマークで実証的に証明する。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。