論文の概要: Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2201.01666v1
- Date: Wed, 5 Jan 2022 15:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 13:54:07.480069
- Title: Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation
- Title(参考訳): 不確実性推定による高効率深層強化学習
- Authors: Vincent Mai, Kaustubh Mani and Liam Paull
- Abstract要約: モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
- 参考スコア(独自算出の注目度): 12.415463205960156
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In model-free deep reinforcement learning (RL) algorithms, using noisy value
estimates to supervise policy evaluation and optimization is detrimental to the
sample efficiency. As this noise is heteroscedastic, its effects can be
mitigated using uncertainty-based weights in the optimization process. Previous
methods rely on sampled ensembles, which do not capture all aspects of
uncertainty. We provide a systematic analysis of the sources of uncertainty in
the noisy supervision that occurs in RL, and introduce inverse-variance RL, a
Bayesian framework which combines probabilistic ensembles and Batch Inverse
Variance weighting. We propose a method whereby two complementary uncertainty
estimation methods account for both the Q-value and the environment
stochasticity to better mitigate the negative impacts of noisy supervision. Our
results show significant improvement in terms of sample efficiency on discrete
and continuous control tasks.
- Abstract(参考訳): モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
このノイズは不均質であるため、最適化過程における不確実性に基づく重み付けによりその効果を緩和することができる。
従来の方法はサンプルアンサンブルに依存しており、不確実性の全ての側面を捉えていない。
そこで本研究では, rl において発生する雑音下での不確かさの原因を体系的に解析し, 確率的アンサンブルとバッチ逆分散重み付けを組み合わせたベイズ的枠組みである逆分散 rl を導入する。
本稿では,2つの相補的不確実性推定手法がQ値と環境確率の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
その結果,離散的および連続的な制御タスクにおいて,サンプル効率が大幅に向上した。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Towards Reliable Uncertainty Quantification via Deep Ensembles in
Multi-output Regression Task [0.0]
本研究は,多出力回帰タスクにおいて,近似ベイズ推論であるディープアンサンブルアプローチについて検討することを目的とする。
増大する不確実性の過小評価の傾向を初めて観察する。
本稿では,その不確実性定量化性能を向上させるために,ポストホックキャリブレーション法を適用したディープアンサンブルフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T05:10:57Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Uncertainty Quantification for Traffic Forecasting: A Unified Approach [21.556559649467328]
不確実性は時系列予測タスクに不可欠な考慮事項である。
本研究では,交通予測の不確かさの定量化に焦点をあてる。
STUQ(Deep S-Temporal Uncertainity Quantification)を開発した。
論文 参考訳(メタデータ) (2022-08-11T15:21:53Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - The Aleatoric Uncertainty Estimation Using a Separate Formulation with
Virtual Residuals [51.71066839337174]
既存の手法では、ターゲット推定における誤差を定量化できるが、過小評価する傾向がある。
本稿では,信号とその不確かさを推定するための新たな分離可能な定式化を提案し,オーバーフィッティングの影響を回避した。
提案手法は信号および不確実性推定のための最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T12:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。