論文の概要: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.02295v2
- Date: Wed, 2 Oct 2024 05:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:55:51.012800
- Title: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
- Title(参考訳): 不確実性認識強化学習のための一般化ガウス時間差誤差
- Authors: Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Wooseop Hwang,
- Abstract要約: 深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。
我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
- 参考スコア(独自算出の注目度): 0.19418036471925312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional uncertainty-aware temporal difference (TD) learning methods often rely on simplistic assumptions, typically including a zero-mean Gaussian distribution for TD errors. Such oversimplification can lead to inaccurate error representations and compromised uncertainty estimation. In this paper, we introduce a novel framework for generalized Gaussian error modeling in deep reinforcement learning, applicable to both discrete and continuous control settings. Our framework enhances the flexibility of error distribution modeling by incorporating additional higher-order moment, particularly kurtosis, thereby improving the estimation and mitigation of data-dependent noise, i.e., aleatoric uncertainty. We examine the influence of the shape parameter of the generalized Gaussian distribution (GGD) on aleatoric uncertainty and provide a closed-form expression that demonstrates an inverse relationship between uncertainty and the shape parameter. Additionally, we propose a theoretically grounded weighting scheme to fully leverage the GGD. To address epistemic uncertainty, we enhance the batch inverse variance weighting by incorporating bias reduction and kurtosis considerations, resulting in improved robustness. Extensive experimental evaluations using policy gradient algorithms demonstrate the consistent efficacy of our method, showcasing significant performance improvements.
- Abstract(参考訳): 従来の不確実性認識時間差(TD)学習法は、通常、TDエラーに対するゼロ平均ガウス分布を含む、単純化された仮定に依存する。
このような過度な単純化は、不正確なエラー表現と妥協された不確実性推定につながる可能性がある。
本稿では,離散制御と連続制御の両方に適用可能な,深層強化学習におけるガウス的誤りモデリングの新しい枠組みを提案する。
本フレームワークは,高次モーメント,特にカルトシスを付加することにより,誤差分布モデリングの柔軟性を向上させる。
一般ガウス分布(GGD)の形状パラメータがアレターの不確実性に与える影響について検討し,不確かさと形状パラメータの逆関係を示す閉形式表現を提供する。
さらに,GGDを完全に活用する理論的な重み付け手法を提案する。
疫学的な不確実性に対処するため,偏りの低減とカルトシスを考慮したバッチ逆分散重み付けを改良し,ロバスト性を向上した。
政策勾配アルゴリズムを用いた大規模な実験評価は,本手法の一貫性のある有効性を示し,大幅な性能向上を示した。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Mitigating Covariate Shift in Misspecified Regression with Applications
to Reinforcement Learning [39.02112341007981]
本研究では,分布変化がモデルミス種別の有無に及ぼす影響について検討した。
経験的リスク最小化(または標準最小二乗回帰)は、望ましくない不特定性の増幅をもたらす可能性があることを示す。
我々は、この好ましくない振る舞いを避ける新しいアルゴリズムを開発し、したがって、最適な統計率を得ながら、誤特定の増幅を行わない。
論文 参考訳(メタデータ) (2024-01-22T18:59:12Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral
Mapping for Single-channel Speech Enhancement [20.823177372464414]
ほとんどの音声強調(SE)モデルは、ポイント推定を学習し、学習過程における不確実性推定を利用しない。
本研究では,多変量ガウス陰性ログ類似度 (NLL) を最小化することにより,SE性能を余分なコストで向上させることにより,ヘテロスセダスティック不確実性をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-11-16T02:29:05Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。
様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文 参考訳(メタデータ) (2021-05-19T12:37:02Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。