論文の概要: Risk Sensitive Model-Based Reinforcement Learning using Uncertainty
Guided Planning
- arxiv url: http://arxiv.org/abs/2111.04972v1
- Date: Tue, 9 Nov 2021 07:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:27:58.550105
- Title: Risk Sensitive Model-Based Reinforcement Learning using Uncertainty
Guided Planning
- Title(参考訳): 不確実性指導計画を用いたリスク感性モデルに基づく強化学習
- Authors: Stefan Radic Webster, Peter Flach
- Abstract要約: 本稿では,モデルに基づく強化学習アルゴリズムでリスク感度を向上する。
本研究では,高分散状態予測をもたらす行動系列を解析する不確実性誘導型クロスエントロピー法計画を提案する。
実験では、エージェントが計画中の状態空間の不確実な領域を識別し、エージェントを高い信頼領域内に保持する行動をとる能力を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying uncertainty and taking mitigating actions is crucial for safe and
trustworthy reinforcement learning agents, especially when deployed in
high-risk environments. In this paper, risk sensitivity is promoted in a
model-based reinforcement learning algorithm by exploiting the ability of a
bootstrap ensemble of dynamics models to estimate environment epistemic
uncertainty. We propose uncertainty guided cross-entropy method planning, which
penalises action sequences that result in high variance state predictions
during model rollouts, guiding the agent to known areas of the state space with
low uncertainty. Experiments display the ability for the agent to identify
uncertain regions of the state space during planning and to take actions that
maintain the agent within high confidence areas, without the requirement of
explicit constraints. The result is a reduction in the performance in terms of
attaining reward, displaying a trade-off between risk and return.
- Abstract(参考訳): 安全で信頼性の高い強化学習エージェント,特にリスクの高い環境に展開する場合には,不確実性と緩和行動の特定が不可欠である。
本稿では,動的モデルのブートストラップアンサンブルを利用して環境認識の不確実性を推定することにより,モデルに基づく強化学習アルゴリズムでリスク感度を向上する。
本研究では, モデルロールアウト時の動作系列を解析し, エージェントを不確実性の低い状態空間の既知の領域に誘導する不確実性誘導型クロスエントロピー手法計画を提案する。
実験では、エージェントが計画中に状態空間の未知の領域を識別し、明示的な制約を必要とせずに高い信頼領域内でエージェントを維持できる能力を示す。
その結果、報酬を得るという点でパフォーマンスが低下し、リスクとリターンの間のトレードオフが示される。
関連論文リスト
- Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Predictive Uncertainty Quantification via Risk Decompositions for Strictly Proper Scoring Rules [7.0549244915538765]
予測モデリングの不確かさは、しばしばアドホック法に依存する。
本稿では,統計的リスクを通じて不確実性を理解するための理論的アプローチを紹介する。
我々は、ポイントワイズリスクをベイズリスクと過剰リスクに分割する方法を示す。
論文 参考訳(メタデータ) (2024-02-16T14:40:22Z) - Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based
Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。
実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-09-11T16:10:58Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Fast nonlinear risk assessment for autonomous vehicles using learned
conditional probabilistic models of agent futures [19.247932561037487]
本稿では,自動運転車の軌道のリスクを評価するために,高速な非サンプリング方式を提案する。
提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測に対する幅広い表現に対処する。
我々は不確実な位置のモーメントの正確な時間進化を管理する決定論的線形力学系を構築する。
論文 参考訳(メタデータ) (2021-09-21T05:55:39Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - STUaNet: Understanding uncertainty in spatiotemporal collective human
mobility [11.436035608461966]
本研究では,内部データ品質と外部不確実性を同時に推定する不確実性学習機構を提案する。
提案手法は予測と不確かさの両面において優れていることを示す。
論文 参考訳(メタデータ) (2021-02-09T01:43:27Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。