論文の概要: Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition
- arxiv url: http://arxiv.org/abs/2109.07827v1
- Date: Thu, 16 Sep 2021 09:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:00:57.899350
- Title: Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition
- Title(参考訳): 不確実性分解による医療介入に対するリスク対応強化学習の導入
- Authors: Paul Festor, Giulia Luise, Matthieu Komorowski and A. Aldo Faisal
- Abstract要約: 複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
- 参考スコア(独自算出の注目度): 9.208828373290487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is emerging as tool for tackling complex control
and decision-making problems. However, in high-risk environments such as
healthcare, manufacturing, automotive or aerospace, it is often challenging to
bridge the gap between an apparently optimal policy learnt by an agent and its
real-world deployment, due to the uncertainties and risk associated with it.
Broadly speaking RL agents face two kinds of uncertainty, 1. aleatoric
uncertainty, which reflects randomness or noise in the dynamics of the world,
and 2. epistemic uncertainty, which reflects the bounded knowledge of the agent
due to model limitations and finite amount of information/data the agent has
acquired about the world. These two types of uncertainty carry fundamentally
different implications for the evaluation of performance and the level of risk
or trust. Yet these aleatoric and epistemic uncertainties are generally
confounded as standard and even distributional RL is agnostic to this
difference. Here we propose how a distributional approach (UA-DQN) can be
recast to render uncertainties by decomposing the net effects of each
uncertainty. We demonstrate the operation of this method in grid world examples
to build intuition and then show a proof of concept application for an RL agent
operating as a clinical decision support system in critical care
- Abstract(参考訳): 複雑な制御と意思決定問題を解決するツールとして強化学習(RL)が登場している。
しかしながら、医療、製造業、自動車、航空宇宙などのリスクの高い環境では、エージェントが学習した明らかに最適な政策と、それに関連する不確実性やリスクのため、現実の展開とのギャップを埋めることはしばしば困難である。
広義のRL剤は2種類の不確実性に直面している。
1.世界の力学における無作為性や騒音を反映する無秩序不確実性
2. 疫学上の不確実性は、モデル上の限界と、エージェントが世界で獲得した情報・データの有限量により、エージェントの知識の境界を反映している。
これらの2つの不確実性は、パフォーマンスの評価とリスクや信頼のレベルに根本的に異なる意味を持つ。
しかし、これらのアレタリックな不確実性は一般に標準として成り立っており、分布RLでさえこの違いとは無関係である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
本稿では,この手法をグリッド・ワールドの例で実演して直観を構築し,批判的ケアにおける臨床意思決定支援システムとして動作するrlエージェントの概念実証を行った。
関連論文リスト
- Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - A unified uncertainty-aware exploration: Combining epistemic and
aleatory uncertainty [21.139502047972684]
そこで本稿では, リスク感応探索における浮腫性およびてんかん性不確実性の複合効果を定量的に評価するアルゴリズムを提案する。
本手法は,パラメータ化された回帰分布を推定する分布RLの新たな拡張の上に構築する。
探索課題とリスク課題を伴う課題に対する実験結果から,本手法が代替手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-01-05T17:39:00Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Risk-Sensitive and Robust Model-Based Reinforcement Learning and
Planning [2.627046865670577]
我々は、逐次意思決定における計画と強化学習のアプローチに対処する。
多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。
私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
論文 参考訳(メタデータ) (2023-04-02T16:44:14Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement
Learning [35.791555387656956]
絶対的不確実性は、本質的に危険な状態や行動につながる既約環境から生じる。
認知的不確実性は、学習中に蓄積された限られた情報から得られる。
訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックと不確実性を特徴づけることができる。
論文 参考訳(メタデータ) (2022-06-03T13:20:16Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z) - Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning
with Applications in Autonomous Driving [1.6758573326215689]
強化学習は、自律運転のための意思決定エージェントを作成するために使用できる。
これまでのアプローチではブラックボックスソリューションのみを提供しており、エージェントがその決定に対する自信について情報を提供していない。
本稿では,分布RLとアンサンブルアプローチを組み合わせて完全不確実性推定を行うEnsemble Quantile Networks (EQN)法を提案する。
論文 参考訳(メタデータ) (2021-05-21T10:36:16Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。