論文の概要: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.02295v3
- Date: Mon, 03 Feb 2025 06:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:08:11.397259
- Title: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
- Title(参考訳): 不確実性認識強化学習のための一般化ガウス時間差誤差
- Authors: Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Wooseop Hwang,
- Abstract要約: 深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。
我々はデータ依存型アレタリック不確実性の推定と緩和を改善する。
ポリシー勾配アルゴリズムによる実験は、大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 0.19418036471925312
- License:
- Abstract: Conventional uncertainty-aware temporal difference (TD) learning often assumes a zero-mean Gaussian distribution for TD errors, leading to inaccurate error representations and compromised uncertainty estimation. We introduce a novel framework for generalized Gaussian error modeling in deep reinforcement learning to enhance the flexibility of error distribution modeling by incorporating additional higher-order moment, particularly kurtosis, thereby improving the estimation and mitigation of data-dependent aleatoric uncertainty. We examine the influence of the shape parameter of the generalized Gaussian distribution (GGD) on aleatoric uncertainty and provide a closed-form expression that demonstrates an inverse relationship between uncertainty and the shape parameter. Additionally, we propose a theoretically grounded weighting scheme to address epistemic uncertainty by fully leveraging the GGD. We refine batch inverse variance weighting with bias reduction and kurtosis considerations, enhancing robustness. Experiments with policy gradient algorithms demonstrate significant performance gains.
- Abstract(参考訳): 従来の不確実性認識時間差(TD)学習では、TD誤差に対する平均ガウス分布がゼロであると仮定されることが多く、不正確な誤り表現と不確実性推定が損なわれる。
本稿では,高次モーメント,特にクルトーシスを付加することにより,深層強化学習におけるガウス誤差モデリングを一般化し,誤差分布モデリングの柔軟性を高めるためのフレームワークを提案する。
一般ガウス分布(GGD)の形状パラメータがアレターの不確実性に与える影響について検討し,不確かさと形状パラメータの逆関係を示す閉形式表現を提供する。
さらに,GGDを十分に活用しててんかん不確実性に対処する理論的な重み付け手法を提案する。
バッチ逆分散重み付けをバイアス低減とクルトーシスを考慮した改良を行い、堅牢性を向上した。
ポリシー勾配アルゴリズムによる実験は、大幅な性能向上を示す。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
モデル誤差の定量化には機械学習原子間ポテンシャル(MLIP)の不確実性推定が不可欠である。
予測的GPR標準偏差やアンサンブルに基づく不確実性を含む,GPRに基づくMLIPの不確実性の評価を行った。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral
Mapping for Single-channel Speech Enhancement [20.823177372464414]
ほとんどの音声強調(SE)モデルは、ポイント推定を学習し、学習過程における不確実性推定を利用しない。
本研究では,多変量ガウス陰性ログ類似度 (NLL) を最小化することにより,SE性能を余分なコストで向上させることにより,ヘテロスセダスティック不確実性をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-11-16T02:29:05Z) - On Calibrated Model Uncertainty in Deep Learning [0.0]
損失校正されたベイジアンフレームワークの近似推論を,ドロップウェイトに基づくベイジアンニューラルネットワークに拡張する。
損失校正された不確実性から得られる決定は、簡単な代替手段よりも、診断性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-15T20:16:32Z) - On Uncertainty, Tempering, and Data Augmentation in Bayesian
Classification [47.13680267076843]
本研究では,アレータティック不確実性の明示的説明がベイズニューラルネットワークの性能を著しく向上させることを示す。
寒冷な後部は一つ以上の力によって誘惑され、しばしばより率直に言って、誘惑を伴わないよりもエレタリックな不確実性についての私たちの信念を反映している。
論文 参考訳(メタデータ) (2022-03-30T17:17:50Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - CovarianceNet: Conditional Generative Model for Correct Covariance
Prediction in Human Motion Prediction [71.31516599226606]
本稿では,将来の軌道の予測分布に関連する不確かさを正確に予測する手法を提案する。
我々のアプローチであるCovariaceNetは、ガウス潜在変数を持つ条件付き生成モデルに基づいている。
論文 参考訳(メタデータ) (2021-09-07T09:38:24Z) - Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。
様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文 参考訳(メタデータ) (2021-05-19T12:37:02Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。