論文の概要: Langevin DQN
- arxiv url: http://arxiv.org/abs/2002.07282v2
- Date: Tue, 23 Feb 2021 06:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 11:51:34.129997
- Title: Langevin DQN
- Title(参考訳): ランゲヴィン DQN
- Authors: Vikranth Dwaracherla, Benjamin Van Roy
- Abstract要約: 単点推定をトラックする増分強化学習アルゴリズムを開発した。
本研究では,提案アルゴリズムが深層探査を実現することを示す。
また,計算効率を向上させるために,Langevin DQNアルゴリズムを改良した。
- 参考スコア(独自算出の注目度): 15.807243762876901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithms that tackle deep exploration -- an important challenge in
reinforcement learning -- have relied on epistemic uncertainty representation
through ensembles or other hypermodels, exploration bonuses, or visitation
count distributions. An open question is whether deep exploration can be
achieved by an incremental reinforcement learning algorithm that tracks a
single point estimate, without additional complexity required to account for
epistemic uncertainty. We answer this question in the affirmative. In
particular, we develop Langevin DQN, a variation of DQN that differs only in
perturbing parameter updates with Gaussian noise and demonstrate through a
computational study that the presented algorithm achieves deep exploration. We
also offer some intuition to how Langevin DQN achieves deep exploration. In
addition, we present a modification of the Langevin DQN algorithm to improve
the computational efficiency.
- Abstract(参考訳): 深層探査に取り組むアルゴリズムは、強化学習の重要な課題であり、アンサンブルや他のハイパーモデル、探索ボーナス、訪問数分布を通じて認識の不確実性表現に依存している。
オープンな疑問は、一点推定を追跡するインクリメンタル強化学習アルゴリズムによって、認識の不確かさを考慮せずに、深い探索が可能になるかどうかである。
私たちはこの質問を肯定的に答える。
特に,ガウス雑音を伴うパラメータ更新の摂動においてのみ異なるdqnの変動であるlangevin dqnを開発した。
また、Langevin DQNの深層探査の方法についても直感的です。
さらに,計算効率を向上させるためにlangevin dqnアルゴリズムの修正を行った。
関連論文リスト
- Uncertainty quantification for deeponets with ensemble kalman inversion [0.8158530638728501]
本研究では,Ensemble Kalman Inversion (EKI) 手法を用いて,演算子学習のための効率的な不確実性定量化(UQ)のための新しい推論手法を提案する。
EKIはデリバティブフリーでノイズロバストで高度に並列化可能な特徴で知られており、物理インフォームドニューラルネットワークのUQに対するアドバンテージを実証している。
我々は、より大きなデータセットに対応するために、EKIのミニバッチ版をデプロイし、トレーニング段階での大きなデータセットによる計算需要を軽減します。
論文 参考訳(メタデータ) (2024-03-06T04:02:30Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Density Regression and Uncertainty Quantification with Bayesian Deep
Noise Neural Networks [4.376565880192482]
ディープニューラルネットワーク(DNN)モデルは、幅広い教師付き学習アプリケーションにおいて最先端の予測精度を達成した。
DNN予測の不確実性を正確に定量化することは、依然として難しい課題である。
本稿では,ベイジアンディープノイズニューラルネットワーク (B-DeepNoise) を提案する。ベイジアンDNNは,ランダムノイズ変数をすべての隠蔽層に拡張することにより,標準ベイジアンDNNを一般化する。
予測精度,不確実性定量化精度,不確実性定量化効率の点で優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-12T02:47:29Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Improving the Diversity of Bootstrapped DQN by Replacing Priors With Noise [8.938418994111716]
本稿は,従来のノイズに置き換える可能性を探るとともに,ガウス分布からノイズをサンプリングして,このアルゴリズムにさらなる多様性を導入する可能性について考察する。
我々は,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上することを発見した。
論文 参考訳(メタデータ) (2022-03-02T10:28:14Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。