論文の概要: Practical Probabilistic Model-based Deep Reinforcement Learning by
Integrating Dropout Uncertainty and Trajectory Sampling
- arxiv url: http://arxiv.org/abs/2309.11089v1
- Date: Wed, 20 Sep 2023 06:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 13:07:44.715408
- Title: Practical Probabilistic Model-based Deep Reinforcement Learning by
Integrating Dropout Uncertainty and Trajectory Sampling
- Title(参考訳): ドロップアウト不確かさと軌道サンプリングの統合による実用確率モデルに基づく深層強化学習
- Authors: Wenjun Huang, Yunduan Cui, Huiyun Li, Xinyu Wu
- Abstract要約: 本稿では,ニューラルネットワーク上に構築された現在の確率モデルベース強化学習(MBRL)の予測安定性,予測精度,制御能力について述べる。
トラジェクトリサンプリング(DPETS)を用いた新しいアプローチであるドロップアウト型確率アンサンブルを提案する。
- 参考スコア(独自算出の注目度): 7.179313063022576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the prediction stability, prediction accuracy and
control capability of the current probabilistic model-based reinforcement
learning (MBRL) built on neural networks. A novel approach dropout-based
probabilistic ensembles with trajectory sampling (DPETS) is proposed where the
system uncertainty is stably predicted by combining the Monte-Carlo dropout and
trajectory sampling in one framework. Its loss function is designed to correct
the fitting error of neural networks for more accurate prediction of
probabilistic models. The state propagation in its policy is extended to filter
the aleatoric uncertainty for superior control capability. Evaluated by several
Mujoco benchmark control tasks under additional disturbances and one practical
robot arm manipulation task, DPETS outperforms related MBRL approaches in both
average return and convergence velocity while achieving superior performance
than well-known model-free baselines with significant sample efficiency. The
open source code of DPETS is available at https://github.com/mrjun123/DPETS.
- Abstract(参考訳): 本稿では,ニューラルネットワークを用いた現在の確率モデルベース強化学習(mbrl)の予測安定性,予測精度,制御能力について述べる。
モンテカルロ・ドロップアウトと軌道サンプリングを組み合わせたシステム不確実性を安定的に予測する手法として,DPETSを用いた新しい手法を提案する。
その損失関数は、確率モデルのより正確な予測のためにニューラルネットワークの適合誤差を補正するように設計されている。
その政策における状態伝播は、優れた制御能力のためにアレタリック不確実性をフィルタリングするために拡張される。
複数のmujocoベンチマーク制御タスクと1つの実用的なロボットアーム操作タスクによって評価され、dpetは平均リターンと収束速度の両方で関連するmbrlアプローチを上回り、サンプル効率の高い有名なモデルフリーベースラインよりも優れたパフォーマンスを達成している。
DPETSのオープンソースコードはhttps://github.com/mrjun123/DPETSで公開されている。
関連論文リスト
- Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Estimating Regression Predictive Distributions with Sample Networks [17.935136717050543]
モデル不確実性に対する一般的なアプローチは、パラメトリック分布を選択し、最大推定を用いてデータに適合させることである。
選択されたパラメトリック形式は、データ生成分布に不適合であり、信頼できない不確実性推定をもたらす。
出力分布にパラメトリック形式を指定することを避けるため,不確実性をモデル化するためのフレキシブルでスケーラブルなアーキテクチャであるSampleNetを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:23:29Z) - Non-Probability Sampling Network for Stochastic Human Trajectory
Prediction [16.676008193894223]
歩行者の軌跡予測を組み込むためには,マルチモーダルな性質の獲得が不可欠である。
本稿では,従来のランダムサンプリングの代替として,サンプリング空間の均一なカバレッジを確保するQuasi-Carlo法を提案する。
我々は、学習可能なサンプリングネットワークを既存のネットワークに導入し、軌道予測を行う。
論文 参考訳(メタデータ) (2022-03-25T06:41:47Z) - A deep learning based surrogate model for stochastic simulators [0.0]
シミュレータのための深層学習に基づく代理モデルを提案する。
我々は損失関数として条件付き最大平均誤差(CMMD)を利用する。
その結果,提案手法の優れた性能が得られた。
論文 参考訳(メタデータ) (2021-10-24T11:38:47Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Robust and integrative Bayesian neural networks for likelihood-free
parameter inference [0.0]
要約統計を学習するための最先端のニューラルネットワークベースの手法は、シミュレーションベースの確率自由パラメータ推論に有望な結果をもたらした。
本研究では,ベイズニューラルネットワークを用いて要約統計学を学習し,カテゴリー分布を用いて後部密度を直接推定する頑健な統合手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T13:45:23Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z) - DISCO: Double Likelihood-free Inference Stochastic Control [29.84276469617019]
確率自由推論のためのベイズ統計学における現代シミュレータのパワーと最近の技術を活用することを提案する。
シミュレーションパラメータの後方分布は、システムの潜在的非解析モデルによって伝播される。
実験により、制御器の提案により、古典的な制御やロボット工学のタスクにおいて、優れた性能と堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2020-02-18T05:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。