論文の概要: Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.01558v1
- Date: Fri, 3 Jun 2022 13:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 14:37:34.378354
- Title: Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement
Learning
- Title(参考訳): 強化学習における不確かさの解消
- Authors: Bertrand Charpentier, Ransalu Senanayake, Mykel Kochenderfer, Stephan
G\"unnemann
- Abstract要約: 絶対的不確実性は、本質的に危険な状態や行動につながる既約環境から生じる。
認知的不確実性は、学習中に蓄積された限られた情報から得られる。
訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックと不確実性を特徴づけることができる。
- 参考スコア(独自算出の注目度): 35.791555387656956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Characterizing aleatoric and epistemic uncertainty on the predicted rewards
can help in building reliable reinforcement learning (RL) systems. Aleatoric
uncertainty results from the irreducible environment stochasticity leading to
inherently risky states and actions. Epistemic uncertainty results from the
limited information accumulated during learning to make informed decisions.
Characterizing aleatoric and epistemic uncertainty can be used to speed up
learning in a training environment, improve generalization to similar testing
environments, and flag unfamiliar behavior in anomalous testing environments.
In this work, we introduce a framework for disentangling aleatoric and
epistemic uncertainty in RL. (1) We first define four desiderata that capture
the desired behavior for aleatoric and epistemic uncertainty estimation in RL
at both training and testing time. (2) We then present four RL models inspired
by supervised learning (i.e. Monte Carlo dropout, ensemble, deep kernel
learning models, and evidential networks) to instantiate aleatoric and
epistemic uncertainty. Finally, (3) we propose a practical evaluation method to
evaluate uncertainty estimation in model-free RL based on detection of
out-of-distribution environments and generalization to perturbed environments.
We present theoretical and experimental evidence to validate that carefully
equipping model-free RL agents with supervised learning uncertainty methods can
fulfill our desiderata.
- Abstract(参考訳): 予測された報酬に対する動脈的およびてんかん的不確実性を特徴付けることは、信頼できる強化学習(RL)システムを構築するのに役立つ。
不確実性は、本質的にリスクの高い状態や行動につながる既約環境の確率性から生じる。
認識の不確実性は、学習中に蓄積された限られた情報から得られる。
訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックおよびエピステマティックな不確実性を特徴づけることができる。
本研究では,RLにおける動脈硬化とてんかんの不確かさを解消する枠組みを提案する。
1) 学習時間とテスト時間の両方において, 学習時と認識的不確実性推定のための所望の動作をキャプチャする4つのデシデラタを定義する。
2)教師付き学習(モンテカルロ・ドロップアウト、アンサンブル、ディープカーネル学習モデル、証拠ネットワーク)に触発された4つのrlモデルを用いて、アレエータ的・認識的不確かさをインスタンス化する。
最後に,非分布環境の検出と摂動環境への一般化に基づくモデルフリーRLの不確実性評価の実践的評価手法を提案する。
モデルフリーなRLエージェントと教師付き学習不確実性手法を慎重に装備することでデシデラタを満足できることを示す理論的および実験的証拠を提示する。
関連論文リスト
- Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based
Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。
実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-09-11T16:10:58Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Uncertainty Quantification for Traffic Forecasting: A Unified Approach [21.556559649467328]
不確実性は時系列予測タスクに不可欠な考慮事項である。
本研究では,交通予測の不確かさの定量化に焦点をあてる。
STUQ(Deep S-Temporal Uncertainity Quantification)を開発した。
論文 参考訳(メタデータ) (2022-08-11T15:21:53Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文 参考訳(メタデータ) (2021-09-16T09:36:53Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。