論文の概要: Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model
- arxiv url: http://arxiv.org/abs/2006.01752v1
- Date: Tue, 2 Jun 2020 16:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:36:22.993730
- Title: Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model
- Title(参考訳): 介入トリガ予測モデルの性能指標は、モデルを用いた結果の期待値の低下を反映しない
- Authors: Alejandro Schuler, Aashish Bhardwaj, Vincent Liu
- Abstract要約: 臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
- 参考スコア(独自算出の注目度): 71.9860741092209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical researchers often select among and evaluate risk prediction models
using standard machine learning metrics based on confusion matrices. However,
if these models are used to allocate interventions to patients, standard
metrics calculated from retrospective data are only related to model utility
(in terms of reductions in outcomes) under certain assumptions. When
predictions are delivered repeatedly throughout time (e.g. in a patient
encounter), the relationship between standard metrics and utility is further
complicated. Several kinds of evaluations have been used in the literature, but
it has not been clear what the target of estimation is in each evaluation. We
synthesize these approaches, determine what is being estimated in each of them,
and discuss under what assumptions those estimates are valid. We demonstrate
our insights using simulated data as well as real data used in the design of an
early warning system. Our theoretical and empirical results show that
evaluations without interventional data either do not estimate meaningful
quantities, require strong assumptions, or are limited to estimating best-case
scenario bounds.
- Abstract(参考訳): 臨床研究者はしばしば、混乱行列に基づく標準的な機械学習メトリクスを使用してリスク予測モデルを選択して評価する。
しかしながら、これらのモデルが患者への介入を割り当てるのに使用される場合、振り返りデータから算出された標準指標は、特定の仮定の下でのモデルユーティリティ(結果の減少の観点から)にのみ関係する。
予測が時間を通じて繰り返し配信される場合(例:患者との出会い)、標準メトリクスとユーティリティの関係はさらに複雑になる。
文献には様々な評価が用いられてきたが,各評価における推定の目的が何であるかは定かではない。
我々は,これらのアプローチを合成し,各手法で何を推定しているかを決定し,その推定が妥当な仮定の下で議論する。
早期警報システムの設計に使用する実データと同様にシミュレーションデータを用いて,我々の知見を実証する。
その結果,介入データのない評価では有意な量を推定しないか,強い仮定を必要とするか,最善のシナリオ境界の推定に制限されることがわかった。
関連論文リスト
- Deep Learning Methods for the Noniterative Conditional Expectation G-Formula for Causal Inference from Complex Observational Data [3.0958655016140892]
g-formula は観測データを用いて持続的治療戦略の因果効果を推定するために用いられる。
パラメトリックモデルはモデルの誤特定を受けており、バイアスのある因果推定をもたらす可能性がある。
NICE g-formula 推定器のための統合型ディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:00:46Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Semi-supervised learning and the question of true versus estimated
propensity scores [0.456877715768796]
本稿では, 既知の確率関数が治療効果を推定するのに有用である, という強い直感を再現する簡単な手順を提案する。
さらに、シミュレーション研究は、多くの状況において逆正当性重み推定器よりも直接回帰が好ましいことを示唆している。
論文 参考訳(メタデータ) (2020-09-14T04:13:12Z) - Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。
トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文 参考訳(メタデータ) (2020-07-24T06:54:57Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Uncertainty estimation for classification and risk prediction on medical
tabular data [0.0]
本研究は,医療データの分類とリスク予測のための不確実性推定の理解を深めるものである。
医療などのデータ共有分野において、モデルの予測の不確実性を測定する能力は、意思決定支援ツールの改善につながる可能性がある。
論文 参考訳(メタデータ) (2020-04-13T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。