論文の概要: Avoiding Biased Clinical Machine Learning Model Performance Estimates in
the Presence of Label Selection
- arxiv url: http://arxiv.org/abs/2209.09188v1
- Date: Thu, 15 Sep 2022 22:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:14:09.058475
- Title: Avoiding Biased Clinical Machine Learning Model Performance Estimates in
the Presence of Label Selection
- Title(参考訳): ラベル選択の有無による偏りのある臨床機械学習モデルパフォーマンス推定の回避
- Authors: Conor K. Corbin, Michael Baiocchi, Jonathan H. Chen
- Abstract要約: ラベル選択の3つのクラスを記述し、5つの因果的シナリオをシミュレートし、特定の選択メカニズムが、一般的に報告されているバイナリ機械学習モデルパフォーマンス指標の組に偏っているかを評価する。
その結果, 観測個体群におけるAUROCの有意な推定値が, 実成績を最大20%下回っていることがわかった。
このような格差は、成功した臨床意思決定支援ツールの誤った終了につながるのに十分大きな可能性がある。
- 参考スコア(独自算出の注目度): 3.3944964838781093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When evaluating the performance of clinical machine learning models, one must
consider the deployment population. When the population of patients with
observed labels is only a subset of the deployment population (label
selection), standard model performance estimates on the observed population may
be misleading. In this study we describe three classes of label selection and
simulate five causally distinct scenarios to assess how particular selection
mechanisms bias a suite of commonly reported binary machine learning model
performance metrics. Simulations reveal that when selection is affected by
observed features, naive estimates of model discrimination may be misleading.
When selection is affected by labels, naive estimates of calibration fail to
reflect reality. We borrow traditional weighting estimators from causal
inference literature and find that when selection probabilities are properly
specified, they recover full population estimates. We then tackle the
real-world task of monitoring the performance of deployed machine learning
models whose interactions with clinicians feed-back and affect the selection
mechanism of the labels. We train three machine learning models to flag
low-yield laboratory diagnostics, and simulate their intended consequence of
reducing wasteful laboratory utilization. We find that naive estimates of AUROC
on the observed population undershoot actual performance by up to 20%. Such a
disparity could be large enough to lead to the wrongful termination of a
successful clinical decision support tool. We propose an altered deployment
procedure, one that combines injected randomization with traditional weighted
estimates, and find it recovers true model performance.
- Abstract(参考訳): 臨床機械学習モデルの性能を評価する場合、展開人口を考慮する必要がある。
観察されたラベルを持つ患者の集団が展開人口のサブセットである場合(ラベル選択)、観察された人口に関する標準モデルの性能推定は誤解を招く可能性がある。
本研究では,ラベル選択の3つのクラスを記述し,5つの因果的に異なるシナリオをシミュレートし,特定の選択メカニズムが,一般的に報告されている2つの機械学習モデルのパフォーマンス指標のスイートをどのようにバイアスするかを評価する。
シミュレーションにより、選択が観察された特徴によって影響を受ける場合、モデル識別のナイーブな推定は誤解を招く可能性があることが判明した。
ラベルによって選択が影響を受ける場合、キャリブレーションのナイーブ推定は現実を反映しない。
因果推論文献から従来の重み付け推定器を借用し,選択確率を適切に指定すると,全人口推定値を回収する。
次に、臨床医とのインタラクションがラベルの選択メカニズムに影響を与える、デプロイされた機械学習モデルのパフォーマンスを監視する現実的なタスクに取り組む。
低収率の研究室診断にフラグを付けるために3つの機械学習モデルを訓練し、無駄な研究室利用を減らすための意図した結果をシミュレートした。
その結果, 観測個体群におけるAUROCの有意な推定値が, 実成績を最大20%下回ることがわかった。
このような格差は、成功した臨床意思決定支援ツールの誤った終了につながる可能性がある。
我々は,注入ランダム化と従来の重み付け推定を組み合わせた配置手順の修正を提案し,真のモデル性能を回復させる。
関連論文リスト
- Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Ensemble Method for Estimating Individualized Treatment Effects [15.775032675243995]
本稿では,多様なモデルライブラリから推定値を集約するアルゴリズムを提案する。
43のベンチマークデータセット上でのアンサンブルとモデル選択を比較して、ほぼ毎回、アンサンブルが勝つことを確認します。
論文 参考訳(メタデータ) (2022-02-25T00:44:37Z) - Assessment of contextualised representations in detecting outcome
phrases in clinical trials [14.584741378279316]
本稿では,300 PubMed の要約を専門的に注釈付けしたデータセット "EBM-COMET" を紹介する。
結果の抽出には,事前学習した文脈表現を微調整する。
ベストモデル(BioBERT)は81.5%のF1、81.3%の感度、98.0%の特異性を達成している。
論文 参考訳(メタデータ) (2022-02-13T15:08:00Z) - Assessing Social Determinants-Related Performance Bias of Machine
Learning Models: A case of Hyperchloremia Prediction in ICU Population [6.8473641147443995]
高塩素血症を予測するために構築された4つの分類器について検討した。
実験室をベースとした機能に加え, 社会的決定因子の付加は, 全患者のモデル性能を向上することがわかった。
我々は将来の研究者に、潜在的なバイアスを積極的に調整し、サブグループレポートを含むモデルを設計するよう促す。
論文 参考訳(メタデータ) (2021-11-18T03:58:50Z) - EventScore: An Automated Real-time Early Warning Score for Clinical
Events [3.3039612529376625]
臨床劣化を示す各種臨床事象の早期予測のための解釈可能なモデルを構築した。
このモデルは2つのデータセットと4つの臨床イベントで評価される。
私達のモデルは手動で記録された特徴を要求しないで完全に自動化することができます。
論文 参考訳(メタデータ) (2021-02-11T11:55:08Z) - Double machine learning for sample selection models [0.12891210250935145]
本稿では,サンプル選択や帰属によるサブポピュレーションに対してのみ結果が観察される場合の個別分散処理の評価について考察する。
a)Neyman-orthogonal, Duubly robust, and efficient score function, which suggests the robustness of treatment effect Estimation to moderate regularization biases in the machine learning based Estimation of the outcome, treatment, or sample selection model and (b) sample splitting ( or cross-fitting) to prevent overfitting bias。
論文 参考訳(メタデータ) (2020-11-30T19:40:21Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。