論文の概要: Risk Sensitive Dead-end Identification in Safety-Critical Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.05664v1
- Date: Fri, 13 Jan 2023 17:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:17:29.141292
- Title: Risk Sensitive Dead-end Identification in Safety-Critical Offline
Reinforcement Learning
- Title(参考訳): 安全臨界オフライン強化学習におけるリスクセンシティブなデッドエンド同定
- Authors: Taylor W. Killian, Sonali Parbhoo, Marzyeh Ghassemi
- Abstract要約: 本稿では,決定の帰結を明示的に見積もることにより,最悪の決定ポイントを特定する枠組みを提案する。
本研究は,集中治療室における重症患者のリスクを評価するとともに,玩具領域におけるDistDeDの有用性を実証するものである。
- 参考スコア(独自算出の注目度): 8.521396909445535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safety-critical decision-making scenarios being able to identify
worst-case outcomes, or dead-ends is crucial in order to develop safe and
reliable policies in practice. These situations are typically rife with
uncertainty due to unknown or stochastic characteristics of the environment as
well as limited offline training data. As a result, the value of a decision at
any time point should be based on the distribution of its anticipated effects.
We propose a framework to identify worst-case decision points, by explicitly
estimating distributions of the expected return of a decision. These estimates
enable earlier indication of dead-ends in a manner that is tunable based on the
risk tolerance of the designed task. We demonstrate the utility of
Distributional Dead-end Discovery (DistDeD) in a toy domain as well as when
assessing the risk of severely ill patients in the intensive care unit reaching
a point where death is unavoidable. We find that DistDeD significantly improves
over prior discovery approaches, providing indications of the risk 10 hours
earlier on average as well as increasing detection by 20%.
- Abstract(参考訳): 安全-クリティカルな意思決定シナリオにおいて、最悪のケースの成果を特定できる、あるいはデッドエンドは、安全で信頼性の高いポリシーを実際に開発するために不可欠である。
これらの状況は、通常、環境の未知または確率的な特性や限られたオフライントレーニングデータによる不確実性を伴う。
その結果、任意の時点における決定の値は、その期待する効果の分布に基づいているべきである。
本稿では,決定の期待値の分布を明示的に推定することにより,最悪の決定点を特定する枠組みを提案する。
これらの推定は、設計されたタスクのリスク許容度に基づいて調整可能な方法で、デッドエンドの早期表示を可能にする。
集中治療室の重篤な患者が死が避けられない地点に到達するリスクを評価する際に,玩具領域における分布的デッドエンド発見(distded)の有用性を実証する。
distdedは発見前のアプローチよりも大幅に改善し、平均して10時間早くリスクの兆候を示し、検出率を20%向上させる。
関連論文リスト
- Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - One step closer to unbiased aleatoric uncertainty estimation [71.55174353766289]
そこで本研究では,観測データのアクティブデノイズ化による新しい推定手法を提案する。
幅広い実験を行うことで,提案手法が標準手法よりも実際のデータ不確実性にはるかに近い近似を与えることを示す。
論文 参考訳(メタデータ) (2023-12-16T14:59:11Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Two steps to risk sensitivity [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。
CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。
次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
論文 参考訳(メタデータ) (2021-11-12T16:27:47Z) - Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文 参考訳(メタデータ) (2021-09-16T09:36:53Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Epidemic mitigation by statistical inference from contact tracing data [61.04165571425021]
我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。
本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。
我々のアプローチは、最近接触した個人間の通信のみを必要とする、完全に分散されたアルゴリズムに変換されます。
論文 参考訳(メタデータ) (2020-09-20T12:24:45Z) - Identifying Causal-Effect Inference Failure with Uncertainty-Aware
Models [41.53326337725239]
本稿では,不確実性推定を最先端のニューラルネットワーク手法のクラスに統合する実践的アプローチを提案する。
提案手法は,高次元データに共通する「非オーバーラップ」の状況に優雅に対処できることを示す。
正確なモデリングの不確実性は、過度に自信を持ち、潜在的に有害なレコメンデーションを与えるのを防ぐことができる。
論文 参考訳(メタデータ) (2020-07-01T00:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。