論文の概要: On Uncertainty in Deep State Space Models for Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.09256v1
- Date: Mon, 17 Oct 2022 16:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:29:31.726981
- Title: On Uncertainty in Deep State Space Models for Model-Based Reinforcement
Learning
- Title(参考訳): モデルに基づく強化学習のための深部宇宙モデルの不確かさについて
- Authors: Philipp Becker, Gerhard Neumann
- Abstract要約: RSSMは最適下推定方式を用いており、この推定を用いて訓練されたモデルは、基底真理系のアレター的不確かさを過大評価していることを示す。
そこで本稿では,変分リカレントカルマンネットワーク(VRKN)と呼ばれる,アレタリックおよびてんかんの不確かさをモデル化するための,よく理解されたコンポーネントに基づく代替手法を提案する。
実験の結果,RSSMの代わりにVRKNを用いることで,アレータリック不確実性を適切に把握するタスクのパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 21.63642325390798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improved state space models, such as Recurrent State Space Models (RSSMs),
are a key factor behind recent advances in model-based reinforcement learning
(RL). Yet, despite their empirical success, many of the underlying design
choices are not well understood. We show that RSSMs use a suboptimal inference
scheme and that models trained using this inference overestimate the aleatoric
uncertainty of the ground truth system. We find this overestimation implicitly
regularizes RSSMs and allows them to succeed in model-based RL. We postulate
that this implicit regularization fulfills the same functionality as explicitly
modeling epistemic uncertainty, which is crucial for many other model-based RL
approaches. Yet, overestimating aleatoric uncertainty can also impair
performance in cases where accurately estimating it matters, e.g., when we have
to deal with occlusions, missing observations, or fusing sensor modalities at
different frequencies. Moreover, the implicit regularization is a side-effect
of the inference scheme and not the result of a rigorous, principled
formulation, which renders analyzing or improving RSSMs difficult. Thus, we
propose an alternative approach building on well-understood components for
modeling aleatoric and epistemic uncertainty, dubbed Variational Recurrent
Kalman Network (VRKN). This approach uses Kalman updates for exact smoothing
inference in a latent space and Monte Carlo Dropout to model epistemic
uncertainty. Due to the Kalman updates, the VRKN can naturally handle missing
observations or sensor fusion problems with varying numbers of observations per
time step. Our experiments show that using the VRKN instead of the RSSM
improves performance in tasks where appropriately capturing aleatoric
uncertainty is crucial while matching it in the deterministic standard
benchmarks.
- Abstract(参考訳): Recurrent State Space Models (RSSMs) のような改善された状態空間モデルは、モデルベース強化学習(RL)の最近の進歩の鍵となる要素である。
しかし、その実証的な成功にもかかわらず、基礎となる設計選択の多くはよく理解されていない。
RSSMは最適下推定方式を用いており、この推定を用いて訓練されたモデルは、基底真理系のアレター的不確実性を過大評価していることを示す。
この過大評価はrssmsを暗黙的に規則化し、モデルベースのrlを成功させる。
この暗黙の正則化は認識論的不確かさを明示的にモデル化するのと同じ機能性を満たしていると仮定する。
しかし、オクルージョンの処理や観察の欠如、異なる周波数でのセンサーのモダリティの融合など、正確な推定を行う場合には、過大評価のアレタリック不確実性も性能を損なう可能性がある。
さらに、暗黙の正規化は推論スキームの副作用であり、RSSMの分析や改善を困難にする厳密で原則化された定式化の結果ではない。
そこで本研究では,適応的再帰カルマンネットワーク (VRKN) と呼ばれる,アレタリックおよびてんかんの不確かさをモデル化するための,よく理解されたコンポーネントに基づく代替手法を提案する。
このアプローチはカルマンの更新を使って潜在空間における正確な平滑化推論を行い、モンテカルロのドロップアウトによって認識の不確かさをモデル化する。
カルマンの更新により、vrknは時間ステップごとに異なる数の観測を行い、紛失した観測やセンサー融合の問題を自然に処理できる。
実験の結果,RSSMの代わりにVRKNを用いることで,アレータリック不確実性を適切に把握し,決定論的基準ベンチマークで一致させるタスクの性能が向上することがわかった。
関連論文リスト
- Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability [59.758009422067]
線形状態空間モデルにおいて閉形式ガウス推論を行う独立なカルマンフィルタ層を提案する。
効率的な線形リカレント層と同様に、Kalmanフィルタ層は並列スキャンを使用してシーケンシャルデータを処理している。
実験により、不確実性推論が意思決定の鍵となる問題においてカルマンフィルタ層が優れており、他のステートフルモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-25T11:22:29Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - ALUM: Adversarial Data Uncertainty Modeling from Latent Model
Uncertainty Compensation [25.67258563807856]
本稿では,モデル不確実性とデータ不確実性を扱うALUMという新しい手法を提案する。
提案するALUMはモデルに依存しないため,オーバーヘッドの少ない既存のディープモデルに容易に実装できる。
論文 参考訳(メタデータ) (2023-03-29T17:24:12Z) - Quantifying Model Uncertainty for Semantic Segmentation using Operators
in the RKHS [20.348825818435767]
本稿では,セマンティックセグメンテーションモデルの高精度な予測不確実性定量化のためのフレームワークを提案する。
我々は、ヒルベルト空間(RKHS)を再現するカーネルにおけるモデルの特徴空間に関連する不確実性の多項関数定義を用いる。
これにより、従来のベイズ法よりもモデルの不確実性に対するはるかに正確な見方が導かれる。
論文 参考訳(メタデータ) (2022-11-03T17:10:49Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - Learning Hidden Markov Models When the Locations of Missing Observations
are Unknown [54.40592050737724]
本研究では、未知の観測位置を持つデータからHMMを学習する際の一般的な問題について考察する。
我々は、下層の鎖の構造に関する仮定を一切必要としない再構成アルゴリズムを提供する。
適切な仕様の下では、プロセスのダイナミクスを再構築でき、また、見当たらない観測位置が分かっていたとしても、その有効性を示す。
論文 参考訳(メタデータ) (2022-03-12T22:40:43Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - MDN-VO: Estimating Visual Odometry with Confidence [34.8860186009308]
視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。
本研究では、6-DoFのポーズを推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。
本実験は,本モデルが故障事例の検出に加えて,最先端の性能を上回ることを示す。
論文 参考訳(メタデータ) (2021-12-23T19:26:04Z) - Uncertainty in Data-Driven Kalman Filtering for Partially Known
State-Space Models [84.18625250574853]
本稿では,ハイブリッドモデルに基づくディープステートトラッキングアルゴリズムであるKalmanNetを用いて,不確実性の評価を行う。
誤差共分散行列は内部特性に基づいて不確実性の測定値として計算可能であることを示す。
システムダイナミクスが分かっている場合、KalmanNetは統計情報にアクセスせずにデータからマッピングを学習し、Kalmanフィルタに類似した不確実性を示す。
論文 参考訳(メタデータ) (2021-10-10T08:52:18Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。