Fugu-MT 論文翻訳(概要): Model-Based Uncertainty in Value Functions

論文の概要: Model-Based Uncertainty in Value Functions

arxiv url: http://arxiv.org/abs/2302.12526v1
Date: Fri, 24 Feb 2023 09:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 14:03:49.966491
Title: Model-Based Uncertainty in Value Functions
Title（参考訳）: 値関数におけるモデルに基づく不確かさ
Authors: Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters
Abstract要約: MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
参考スコア（独自算出の注目度）: 89.31922008981735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over MDPs. Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation, but the over-approximation may result in inefficient exploration. We propose a new uncertainty Bellman equation whose solution converges to the true posterior variance over values and explicitly characterizes the gap in previous work. Moreover, our uncertainty quantification technique is easily integrated into common exploration strategies and scales naturally beyond the tabular setting by using standard deep reinforcement learning architectures. Experiments in difficult exploration tasks, both in tabular and continuous control settings, show that our sharper uncertainty estimates improve sample-efficiency.
Abstract（参考訳）: モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。特に,mdp上の分布によって引き起こされる値の分散を特徴付けることに着目する。従来の作業は、いわゆる不確実性ベルマン方程式を解くことによって、値の後方分散を上限とするが、過剰近似は非効率な探索をもたらす。本稿では,値上の真の後続分散に解が収束する新しい不確実性ベルマン方程式を提案し,先行研究のギャップを明示的に特徴づける。さらに, 不確実性定量化手法は, 一般的な探索戦略に容易に組み込まれ, 標準の深層強化学習アーキテクチャを用いて, 表裏設定を超えて自然にスケールする。表と連続的な制御設定の両方において困難な探索作業の実験は、我々のよりシャープな不確実性推定がサンプル効率を改善することを示す。

関連論文リスト

Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning [0.19418036471925312]
深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
論文参考訳（メタデータ） (2024-08-05T08:12:25Z)
Variation Due to Regularization Tractably Recovers Bayesian Deep Learning [44.16006844888796]
本稿では,正規化による変動に基づく大規模ネットワークの不確実性定量化手法を提案する。正規化変動(RegVar)は、無限小極限においてベイズ深層学習におけるラプラス近似を正確に回復する厳密な不確実性を推定する。複数のデータセットにまたがる実験により、RegVarは不確実な予測を効果的に識別するだけでなく、学習した表現の安定性に関する洞察を提供する。
論文参考訳（メタデータ） (2024-03-15T20:47:39Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文参考訳（メタデータ） (2022-11-11T19:34:17Z)
Uncertainty Quantification for Traffic Forecasting: A Unified Approach [21.556559649467328]
不確実性は時系列予測タスクに不可欠な考慮事項である。本研究では,交通予測の不確かさの定量化に焦点をあてる。 STUQ(Deep S-Temporal Uncertainity Quantification)を開発した。
論文参考訳（メタデータ） (2022-08-11T15:21:53Z)
Dense Uncertainty Estimation via an Ensemble-based Conditional Latent Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文参考訳（メタデータ） (2021-11-22T08:54:10Z)
Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文参考訳（メタデータ） (2021-05-19T12:37:02Z)
DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T23:50:35Z)
The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文参考訳（メタデータ） (2020-12-05T17:30:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。