論文の概要: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.02295v2
- Date: Wed, 2 Oct 2024 05:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:55:51.012800
- Title: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
- Title(参考訳): 不確実性認識強化学習のための一般化ガウス時間差誤差
- Authors: Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Wooseop Hwang,
- Abstract要約: 深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。
我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
- 参考スコア(独自算出の注目度): 0.19418036471925312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional uncertainty-aware temporal difference (TD) learning methods often rely on simplistic assumptions, typically including a zero-mean Gaussian distribution for TD errors. Such oversimplification can lead to inaccurate error representations and compromised uncertainty estimation. In this paper, we introduce a novel framework for generalized Gaussian error modeling in deep reinforcement learning, applicable to both discrete and continuous control settings. Our framework enhances the flexibility of error distribution modeling by incorporating additional higher-order moment, particularly kurtosis, thereby improving the estimation and mitigation of data-dependent noise, i.e., aleatoric uncertainty. We examine the influence of the shape parameter of the generalized Gaussian distribution (GGD) on aleatoric uncertainty and provide a closed-form expression that demonstrates an inverse relationship between uncertainty and the shape parameter. Additionally, we propose a theoretically grounded weighting scheme to fully leverage the GGD. To address epistemic uncertainty, we enhance the batch inverse variance weighting by incorporating bias reduction and kurtosis considerations, resulting in improved robustness. Extensive experimental evaluations using policy gradient algorithms demonstrate the consistent efficacy of our method, showcasing significant performance improvements.
- Abstract(参考訳): 従来の不確実性認識時間差(TD)学習法は、通常、TDエラーに対するゼロ平均ガウス分布を含む、単純化された仮定に依存する。
このような過度な単純化は、不正確なエラー表現と妥協された不確実性推定につながる可能性がある。
本稿では,離散制御と連続制御の両方に適用可能な,深層強化学習におけるガウス的誤りモデリングの新しい枠組みを提案する。
本フレームワークは,高次モーメント,特にカルトシスを付加することにより,誤差分布モデリングの柔軟性を向上させる。
一般ガウス分布(GGD)の形状パラメータがアレターの不確実性に与える影響について検討し,不確かさと形状パラメータの逆関係を示す閉形式表現を提供する。
さらに,GGDを完全に活用する理論的な重み付け手法を提案する。
疫学的な不確実性に対処するため,偏りの低減とカルトシスを考慮したバッチ逆分散重み付けを改良し,ロバスト性を向上した。
政策勾配アルゴリズムを用いた大規模な実験評価は,本手法の一貫性のある有効性を示し,大幅な性能向上を示した。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
モデル誤差の定量化には機械学習原子間ポテンシャル(MLIP)の不確実性推定が不可欠である。
予測的GPR標準偏差やアンサンブルに基づく不確実性を含む,GPRに基づくMLIPの不確実性の評価を行った。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral
Mapping for Single-channel Speech Enhancement [20.823177372464414]
ほとんどの音声強調(SE)モデルは、ポイント推定を学習し、学習過程における不確実性推定を利用しない。
本研究では,多変量ガウス陰性ログ類似度 (NLL) を最小化することにより,SE性能を余分なコストで向上させることにより,ヘテロスセダスティック不確実性をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-11-16T02:29:05Z) - On Calibrated Model Uncertainty in Deep Learning [0.0]
損失校正されたベイジアンフレームワークの近似推論を,ドロップウェイトに基づくベイジアンニューラルネットワークに拡張する。
損失校正された不確実性から得られる決定は、簡単な代替手段よりも、診断性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-15T20:16:32Z) - On Uncertainty, Tempering, and Data Augmentation in Bayesian
Classification [47.13680267076843]
本研究では,アレータティック不確実性の明示的説明がベイズニューラルネットワークの性能を著しく向上させることを示す。
寒冷な後部は一つ以上の力によって誘惑され、しばしばより率直に言って、誘惑を伴わないよりもエレタリックな不確実性についての私たちの信念を反映している。
論文 参考訳(メタデータ) (2022-03-30T17:17:50Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - CovarianceNet: Conditional Generative Model for Correct Covariance
Prediction in Human Motion Prediction [71.31516599226606]
本稿では,将来の軌道の予測分布に関連する不確かさを正確に予測する手法を提案する。
我々のアプローチであるCovariaceNetは、ガウス潜在変数を持つ条件付き生成モデルに基づいている。
論文 参考訳(メタデータ) (2021-09-07T09:38:24Z) - Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。
様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文 参考訳(メタデータ) (2021-05-19T12:37:02Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。