論文の概要: Pre-emptive learning-to-defer for sequential medical decision-making
under uncertainty
- arxiv url: http://arxiv.org/abs/2109.06312v1
- Date: Mon, 13 Sep 2021 20:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 05:37:14.459113
- Title: Pre-emptive learning-to-defer for sequential medical decision-making
under uncertainty
- Title(参考訳): 不確実性を考慮した逐次医療意思決定のための事前学習
- Authors: Shalmali Joshi and Sonali Parbhoo and Finale Doshi-Velez
- Abstract要約: 本研究では,SLTD(Sequential Learning-to-Defer)を,逐次的意思決定設定において専門家に先入観を学習するためのフレームワークとして提案する。
SLTDは、力学の根底にある不確実性に基づいて、現在と後の遅延値を改善する可能性を測定する。
- 参考スコア(独自算出の注目度): 35.077494648756876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SLTD (`Sequential Learning-to-Defer') a framework for
learning-to-defer pre-emptively to an expert in sequential decision-making
settings. SLTD measures the likelihood of improving value of deferring now
versus later based on the underlying uncertainty in dynamics. In particular, we
focus on the non-stationarity in the dynamics to accurately learn the deferral
policy. We demonstrate our pre-emptive deferral can identify regions where the
current policy has a low probability of improving outcomes. SLTD outperforms
existing non-sequential learning-to-defer baselines, whilst reducing overall
uncertainty on multiple synthetic and real-world simulators with non-stationary
dynamics. We further derive and decompose the propagated (long-term)
uncertainty for interpretation by the domain expert to provide an indication of
when the model's performance is reliable.
- Abstract(参考訳): 我々は,sltd (`sequential learning-to-defer') を,逐次的な意思決定設定において専門家に事前の学習-防御のための枠組みを提案する。
sltdは、ダイナミクスの根底にある不確実性に基づいて、現在遅延する価値を改善する可能性を測定する。
特に,遅延ポリシーを正確に学習するダイナミクスの非定常性に注目した。
先入観的推論は、現在の政策が結果を改善する可能性の低い地域を特定できることを示す。
SLTDは、非定常力学を持つ複数の合成および実世界のシミュレータの全体的な不確実性を低減しつつ、既存の非逐次学習と遅延ベースラインを上回ります。
さらに、モデルの性能がいつ信頼できるかを示すために、ドメインの専門家による解釈のための伝播(長期的な)不確実性を導出し分解する。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Pausing Policy Learning in Non-stationary Reinforcement Learning [23.147618992106867]
意思決定を継続的に更新することは、時間的ギャップを最小限にするために最適である、という共通の信念に取り組む。
我々は,オンライン強化学習フレームワークの予測を提案し,戦略的に混乱した意思決定の更新により,全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-05-25T04:38:09Z) - Dynamic Environment Responsive Online Meta-Learning with Fairness
Awareness [30.44174123736964]
本稿では,FairSAOMLと呼ばれる,適応フェアネスを考慮したオンラインメタ学習アルゴリズムを提案する。
動的環境下での様々な実世界のデータセットに対する実験評価により,提案アルゴリズムが一貫した代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T17:44:35Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - ESC-Rules: Explainable, Semantically Constrained Rule Sets [11.160515561004619]
本稿では,ファジィ重み付き学習規則に基づく連続変数の予測法について述べる。
我々のモデルは、予測精度を最大化し、オントロジーに基づく「意味的損失」関数を最小化するために重み付きルールのセットを訓練する。
本システムは,メタシンボリック学習を記号学習とドメイン知識に基づく制約で融合する。
論文 参考訳(メタデータ) (2022-08-26T09:29:30Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。