Fugu-MT 論文翻訳(概要): Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning

論文の概要: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.02295v3
Date: Mon, 03 Feb 2025 06:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.130917
Title: Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
Title（参考訳）: 不確実性認識強化学習のための一般化ガウス時間差誤差
Authors: Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Wooseop Hwang,
Abstract要約: 深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。我々はデータ依存型アレタリック不確実性の推定と緩和を改善する。ポリシー勾配アルゴリズムによる実験は、大幅な性能向上を示す。
参考スコア（独自算出の注目度）: 0.19418036471925312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventional uncertainty-aware temporal difference (TD) learning often assumes a zero-mean Gaussian distribution for TD errors, leading to inaccurate error representations and compromised uncertainty estimation. We introduce a novel framework for generalized Gaussian error modeling in deep reinforcement learning to enhance the flexibility of error distribution modeling by incorporating additional higher-order moment, particularly kurtosis, thereby improving the estimation and mitigation of data-dependent aleatoric uncertainty. We examine the influence of the shape parameter of the generalized Gaussian distribution (GGD) on aleatoric uncertainty and provide a closed-form expression that demonstrates an inverse relationship between uncertainty and the shape parameter. Additionally, we propose a theoretically grounded weighting scheme to address epistemic uncertainty by fully leveraging the GGD. We refine batch inverse variance weighting with bias reduction and kurtosis considerations, enhancing robustness. Experiments with policy gradient algorithms demonstrate significant performance gains.
Abstract（参考訳）: 従来の不確実性認識時間差(TD)学習では、TD誤差に対する平均ガウス分布がゼロであると仮定されることが多く、不正確な誤り表現と不確実性推定が損なわれる。本稿では,高次モーメント,特にクルトーシスを付加することにより,深層強化学習におけるガウス誤差モデリングを一般化し,誤差分布モデリングの柔軟性を高めるためのフレームワークを提案する。一般ガウス分布(GGD)の形状パラメータがアレターの不確実性に与える影響について検討し,不確かさと形状パラメータの逆関係を示す閉形式表現を提供する。さらに,GGDを十分に活用しててんかん不確実性に対処する理論的な重み付け手法を提案する。バッチ逆分散重み付けをバイアス低減とクルトーシスを考慮した改良を行い、堅牢性を向上した。ポリシー勾配アルゴリズムによる実験は、大幅な性能向上を示す。

関連論文リスト

Active operator learning with predictive uncertainty quantification for partial differential equations [6.519088943440059]
本研究では,訓練中に観測されたモデル誤差に校正された予測的不確実性推定を用いたディープオペレータネットワーク(DeepONets)の不確実性定量化手法を開発した。不確実性フレームワークは、既存のアンサンブルアプローチとは対照的に、単一のネットワークを使用して動作し、トレーニングと推論中に最小限のオーバーヘッドを導入する。一連の偏微分方程式(PDE)問題に対する不確実性を考慮したモデルの評価を行い、モデル予測が偏りがなく、非歪で、PDEに対する解を正確に再現していることを示す。
論文参考訳（メタデータ） (2025-03-05T04:48:14Z)
Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文参考訳（メタデータ） (2024-10-27T10:06:09Z)
Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文参考訳（メタデータ） (2024-10-01T04:27:07Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Mitigating Covariate Shift in Misspecified Regression with Applications to Reinforcement Learning [39.02112341007981]
本研究では,分布変化がモデルミス種別の有無に及ぼす影響について検討した。経験的リスク最小化(または標準最小二乗回帰)は、望ましくない不特定性の増幅をもたらす可能性があることを示す。我々は、この好ましくない振る舞いを避ける新しいアルゴリズムを開発し、したがって、最適な統計率を得ながら、誤特定の増幅を行わない。
論文参考訳（メタデータ） (2024-01-22T18:59:12Z)
Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文参考訳（メタデータ） (2023-02-24T09:18:27Z)
Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral Mapping for Single-channel Speech Enhancement [20.823177372464414]
ほとんどの音声強調(SE)モデルは、ポイント推定を学習し、学習過程における不確実性推定を利用しない。本研究では,多変量ガウス陰性ログ類似度 (NLL) を最小化することにより,SE性能を余分なコストで向上させることにより,ヘテロスセダスティック不確実性をモデル化できることを示す。
論文参考訳（メタデータ） (2022-11-16T02:29:05Z)
On Calibrated Model Uncertainty in Deep Learning [0.0]
損失校正されたベイジアンフレームワークの近似推論を,ドロップウェイトに基づくベイジアンニューラルネットワークに拡張する。損失校正された不確実性から得られる決定は、簡単な代替手段よりも、診断性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-06-15T20:16:32Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)
Dense Uncertainty Estimation via an Ensemble-based Conditional Latent Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文参考訳（メタデータ） (2021-11-22T08:54:10Z)
CovarianceNet: Conditional Generative Model for Correct Covariance Prediction in Human Motion Prediction [71.31516599226606]
本稿では,将来の軌道の予測分布に関連する不確かさを正確に予測する手法を提案する。我々のアプローチであるCovariaceNetは、ガウス潜在変数を持つ条件付き生成モデルに基づいている。
論文参考訳（メタデータ） (2021-09-07T09:38:24Z)
Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文参考訳（メタデータ） (2021-05-19T12:37:02Z)
The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文参考訳（メタデータ） (2020-12-05T17:30:35Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)
Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文参考訳（メタデータ） (2020-02-13T15:55:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。