論文の概要: Risk Sensitive Dead-end Identification in Safety-Critical Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.05664v1
- Date: Fri, 13 Jan 2023 17:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:17:29.141292
- Title: Risk Sensitive Dead-end Identification in Safety-Critical Offline
Reinforcement Learning
- Title(参考訳): 安全臨界オフライン強化学習におけるリスクセンシティブなデッドエンド同定
- Authors: Taylor W. Killian, Sonali Parbhoo, Marzyeh Ghassemi
- Abstract要約: 本稿では,決定の帰結を明示的に見積もることにより,最悪の決定ポイントを特定する枠組みを提案する。
本研究は,集中治療室における重症患者のリスクを評価するとともに,玩具領域におけるDistDeDの有用性を実証するものである。
- 参考スコア(独自算出の注目度): 8.521396909445535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safety-critical decision-making scenarios being able to identify
worst-case outcomes, or dead-ends is crucial in order to develop safe and
reliable policies in practice. These situations are typically rife with
uncertainty due to unknown or stochastic characteristics of the environment as
well as limited offline training data. As a result, the value of a decision at
any time point should be based on the distribution of its anticipated effects.
We propose a framework to identify worst-case decision points, by explicitly
estimating distributions of the expected return of a decision. These estimates
enable earlier indication of dead-ends in a manner that is tunable based on the
risk tolerance of the designed task. We demonstrate the utility of
Distributional Dead-end Discovery (DistDeD) in a toy domain as well as when
assessing the risk of severely ill patients in the intensive care unit reaching
a point where death is unavoidable. We find that DistDeD significantly improves
over prior discovery approaches, providing indications of the risk 10 hours
earlier on average as well as increasing detection by 20%.
- Abstract(参考訳): 安全-クリティカルな意思決定シナリオにおいて、最悪のケースの成果を特定できる、あるいはデッドエンドは、安全で信頼性の高いポリシーを実際に開発するために不可欠である。
これらの状況は、通常、環境の未知または確率的な特性や限られたオフライントレーニングデータによる不確実性を伴う。
その結果、任意の時点における決定の値は、その期待する効果の分布に基づいているべきである。
本稿では,決定の期待値の分布を明示的に推定することにより,最悪の決定点を特定する枠組みを提案する。
これらの推定は、設計されたタスクのリスク許容度に基づいて調整可能な方法で、デッドエンドの早期表示を可能にする。
集中治療室の重篤な患者が死が避けられない地点に到達するリスクを評価する際に,玩具領域における分布的デッドエンド発見(distded)の有用性を実証する。
distdedは発見前のアプローチよりも大幅に改善し、平均して10時間早くリスクの兆候を示し、検出率を20%向上させる。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。
既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。
限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:47:36Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Auditing Fairness under Unobserved Confounding [56.61738581796362]
リスクファクターがすべて観察されているという仮定を完全に取り除いたり緩和したりしても、ハイリスクな個人に治療率に有意義な限界を与えることができることを示す。
既存の意思決定システムの不公平な結果を原則的に評価することができる。
論文 参考訳(メタデータ) (2024-03-18T21:09:06Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - One step closer to unbiased aleatoric uncertainty estimation [71.55174353766289]
そこで本研究では,観測データのアクティブデノイズ化による新しい推定手法を提案する。
幅広い実験を行うことで,提案手法が標準手法よりも実際のデータ不確実性にはるかに近い近似を与えることを示す。
論文 参考訳(メタデータ) (2023-12-16T14:59:11Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Two steps to risk sensitivity [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。
CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。
次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
論文 参考訳(メタデータ) (2021-11-12T16:27:47Z) - Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文 参考訳(メタデータ) (2021-09-16T09:36:53Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。