Fugu-MT 論文翻訳(概要): Risk Sensitive Dead-end Identification in Safety-Critical Offline Reinforcement Learning

論文の概要: Risk Sensitive Dead-end Identification in Safety-Critical Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2301.05664v1
Date: Fri, 13 Jan 2023 17:01:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-16 14:17:29.141292
Title: Risk Sensitive Dead-end Identification in Safety-Critical Offline Reinforcement Learning
Title（参考訳）: 安全臨界オフライン強化学習におけるリスクセンシティブなデッドエンド同定
Authors: Taylor W. Killian, Sonali Parbhoo, Marzyeh Ghassemi
Abstract要約: 本稿では,決定の帰結を明示的に見積もることにより,最悪の決定ポイントを特定する枠組みを提案する。本研究は,集中治療室における重症患者のリスクを評価するとともに,玩具領域におけるDistDeDの有用性を実証するものである。
参考スコア（独自算出の注目度）: 8.521396909445535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In safety-critical decision-making scenarios being able to identify worst-case outcomes, or dead-ends is crucial in order to develop safe and reliable policies in practice. These situations are typically rife with uncertainty due to unknown or stochastic characteristics of the environment as well as limited offline training data. As a result, the value of a decision at any time point should be based on the distribution of its anticipated effects. We propose a framework to identify worst-case decision points, by explicitly estimating distributions of the expected return of a decision. These estimates enable earlier indication of dead-ends in a manner that is tunable based on the risk tolerance of the designed task. We demonstrate the utility of Distributional Dead-end Discovery (DistDeD) in a toy domain as well as when assessing the risk of severely ill patients in the intensive care unit reaching a point where death is unavoidable. We find that DistDeD significantly improves over prior discovery approaches, providing indications of the risk 10 hours earlier on average as well as increasing detection by 20%.
Abstract（参考訳）: 安全-クリティカルな意思決定シナリオにおいて、最悪のケースの成果を特定できる、あるいはデッドエンドは、安全で信頼性の高いポリシーを実際に開発するために不可欠である。これらの状況は、通常、環境の未知または確率的な特性や限られたオフライントレーニングデータによる不確実性を伴う。その結果、任意の時点における決定の値は、その期待する効果の分布に基づいているべきである。本稿では,決定の期待値の分布を明示的に推定することにより,最悪の決定点を特定する枠組みを提案する。これらの推定は、設計されたタスクのリスク許容度に基づいて調整可能な方法で、デッドエンドの早期表示を可能にする。集中治療室の重篤な患者が死が避けられない地点に到達するリスクを評価する際に,玩具領域における分布的デッドエンド発見(distded)の有用性を実証する。 distdedは発見前のアプローチよりも大幅に改善し、平均して10時間早くリスクの兆候を示し、検出率を20%向上させる。

関連論文リスト

Competing Risks: Impact on Risk Estimation and Algorithmic Fairness [0.0]
生存分析(Survival analysis)は、検閲患者として知られる研究期間中に興味のある出来事を経験していない患者のことを指す。競合するリスクは、しばしば検閲として扱われる。我々の研究は、競合するリスクを検閲として扱うことが、生存率のかなりのバイアスをもたらし、リスクを体系的に過大評価し、そして批判的に、格差を増幅する理由を示している。
論文参考訳（メタデータ） (2025-08-07T14:25:43Z)
Fragility-aware Classification for Understanding Risk and Improving Generalization [6.926253982569273]
リスク・リバースの観点から分類性能を評価する新しい指標であるFragility Index(FI)を導入する。我々は, クロスエントロピー損失, ヒンジ型損失, リプシッツ損失の正確な修正を導き, 深層学習モデルへのアプローチを拡張した。
論文参考訳（メタデータ） (2025-02-18T16:44:03Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-24T04:47:36Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
Auditing Fairness under Unobserved Confounding [56.61738581796362]
リスクファクターがすべて観察されているという仮定を完全に取り除いたり緩和したりしても、ハイリスクな個人に治療率に有意義な限界を与えることができることを示す。既存の意思決定システムの不公平な結果を原則的に評価することができる。
論文参考訳（メタデータ） (2024-03-18T21:09:06Z)
Inadequacy of common stochastic neural networks for reliable clinical decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。本研究は臨床応用における信頼性について考察する。
論文参考訳（メタデータ） (2024-01-24T18:49:30Z)
One step closer to unbiased aleatoric uncertainty estimation [71.55174353766289]
そこで本研究では,観測データのアクティブデノイズ化による新しい推定手法を提案する。幅広い実験を行うことで,提案手法が標準手法よりも実際のデータ不確実性にはるかに近い近似を与えることを示す。
論文参考訳（メタデータ） (2023-12-16T14:59:11Z)
One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文参考訳（メタデータ） (2022-11-30T21:24:11Z)
Two steps to risk sensitivity [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。 CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
論文参考訳（メタデータ） (2021-11-12T16:27:47Z)
Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文参考訳（メタデータ） (2021-09-16T09:36:53Z)
DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T23:50:35Z)
Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。本稿では,評価値のバイアスや時間的に矛盾する点を強調した。本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文参考訳（メタデータ） (2020-10-05T18:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。