論文の概要: On the Reduction of Variance and Overestimation of Deep Q-Learning
- arxiv url: http://arxiv.org/abs/1910.05983v2
- Date: Sun, 14 Apr 2024 14:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 00:52:57.691473
- Title: On the Reduction of Variance and Overestimation of Deep Q-Learning
- Title(参考訳): 深部Q-Learningのばらつきの低減と過大評価について
- Authors: Mohammed Sabry, Amr M. A. Khalifa,
- Abstract要約: 本稿では,分散度と過大評価量を削減する方法として,深層Q-LearningアルゴリズムにおけるDropout手法を提案する。
また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The breakthrough of deep Q-Learning on different types of environments revolutionized the algorithmic design of Reinforcement Learning to introduce more stable and robust algorithms, to that end many extensions to deep Q-Learning algorithm have been proposed to reduce the variance of the target values and the overestimation phenomena. In this paper, we examine new methodology to solve these issues, we propose using Dropout techniques on deep Q-Learning algorithm as a way to reduce variance and overestimation. We also present experiments conducted on benchmark environments, demonstrating the effectiveness of our methodology in enhancing stability and reducing both variance and overestimation in model performance.
- Abstract(参考訳): 様々な種類の環境における深いQラーニングのブレークスルーは、強化学習のアルゴリズム設計に革命をもたらし、より安定で堅牢なアルゴリズムを導入し、その結果、ターゲット値と過大評価現象のばらつきを減らすために、深いQラーニングアルゴリズムへの多くの拡張が提案されている。
本稿では,これらの問題を解決するための新しい手法について検討し,分散と過大評価の方法として,深層Q-Learningアルゴリズムを用いたDropout手法を提案する。
また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。
関連論文リスト
- An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文 参考訳(メタデータ) (2024-01-06T08:43:08Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Calibrated and Sharp Uncertainties in Deep Learning via Simple Density
Estimation [7.184701179854522]
本稿では,これらの特性の観点からの不確かさを推論し,それを深層学習に適用するための簡単なアルゴリズムを提案する。
本手法はキャリブレーションの最も強い概念である分布キャリブレーションに着目し,低次元密度あるいは量子関数をニューラル推定器に適合させることにより,キャリブレーションを強制する。
実験により,本手法は計算と実装のオーバーヘッドを最小限に抑えながら,いくつかのタスクにおける予測の不確実性を改善できることが判明した。
論文 参考訳(メタデータ) (2021-12-14T06:19:05Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。