Fugu-MT 論文翻訳(概要): Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare

論文の概要: Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare

arxiv url: http://arxiv.org/abs/2603.00192v1
Date: Fri, 27 Feb 2026 03:42:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.097255
Title: Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare
Title（参考訳）: 医療用機械学習における個別レベル予測不安定性の診断
Authors: Elizabeth W. Miller, Jeffrey D. Blume,
Abstract要約: 2つの相補的診断法を用いて個人レベルの予測不安定性を定量化する評価フレームワークを提案する。これらの診断をシミュレーションデータとGUSTO-I臨床データセットに適用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In healthcare, predictive models increasingly inform patient-level decisions, yet little attention is paid to the variability in individual risk estimates and its impact on treatment decisions. For overparameterized models, now standard in machine learning, a substantial source of variability often goes undetected. Even when the data and model architecture are held fixed, randomness introduced by optimization and initialization can lead to materially different risk estimates for the same patient. This problem is largely obscured by standard evaluation practices, which rely on aggregate performance metrics (e.g., log-loss, accuracy) that are agnostic to individual-level stability. As a result, models with indistinguishable aggregate performance can nonetheless exhibit substantial procedural arbitrariness, which can undermine clinical trust. We propose an evaluation framework that quantifies individual-level prediction instability by using two complementary diagnostics: empirical prediction interval width (ePIW), which captures variability in continuous risk estimates, and empirical decision flip rate (eDFR), which measures instability in threshold-based clinical decisions. We apply these diagnostics to simulated data and GUSTO-I clinical dataset. Across observed settings, we find that for flexible machine-learning models, randomness arising solely from optimization and initialization can induce individual-level variability comparable to that produced by resampling the entire training dataset. Neural networks exhibit substantially greater instability in individual risk predictions compared to logistic regression models. Risk estimate instability near clinically relevant decision thresholds can alter treatment recommendations. These findings that stability diagnostics should be incorporated into routine model validation for assessing clinical reliability.
Abstract（参考訳）: 医療分野では、予測モデルは患者レベルの決定をますます通知するが、個々のリスク見積の変動や治療決定への影響にはほとんど注意が払わない。過度にパラメータ化されたモデルでは、今や機械学習では標準となっているが、変数の実質的な源は検出されないことが多い。データとモデルアーキテクチャが固定されたとしても、最適化と初期化によって導入されたランダム性は、同じ患者に対して非常に異なるリスク推定をもたらす可能性がある。この問題は、個々のレベルの安定性に非依存な総合的なパフォーマンス指標(例えば、ログロス、正確性)に依存する、標準的な評価プラクティスによって明らかにされている。結果として、区別不能な集計性能を持つモデルは、しかしながら、相当な手続き的仲裁性を示し、臨床信頼を損なう可能性がある。本研究では,連続リスク推定における変動を捉えた経験的予測間隔幅(ePIW)と,しきい値に基づく臨床診断における不安定度を測定する経験的決定フリップ率(eDFR)の2つの相補的診断法を用いて,個人レベルの予測不安定度を定量化する評価フレームワークを提案する。これらの診断をシミュレーションデータとGUSTO-I臨床データセットに適用する。観察された設定全体にわたって、フレキシブルな機械学習モデルでは、最適化と初期化のみで生じるランダム性は、トレーニングデータセット全体を再サンプリングすることによって生成されたものと同等のレベルの変動を誘発することができる。ニューラルネットワークは、ロジスティック回帰モデルと比較して、個々のリスク予測においてかなり不安定である。臨床的に関連する決定しきい値に近いリスク推定不安定性は、治療勧告を変更する可能性がある。これらの結果から, 臨床信頼性評価のための定期的モデル検証に安定性診断を取り入れるべきであることが示唆された。

関連論文リスト

Bootstrapping-based Regularisation for Reducing Individual Prediction Instability in Clinical Risk Prediction Models [2.1127261244588156]
本稿では,ブートストラッププロセスを直接深層ニューラルネットワークのトレーニングに組み込む,ブートストラップに基づく新たな正規化フレームワークを提案する。このアプローチは、再サンプリングされたデータセット間の予測変数を制約し、固有の安定性特性を持つ単一のモデルを生成する。提案手法を従来モデルとアンサンブルモデルに対して提案した正規化手法を用いて構築したモデルを評価した。
論文参考訳（メタデータ） (2026-02-11T20:47:30Z)
A systematic evaluation of uncertainty quantification techniques in deep learning: a case study in photoplethysmography signal analysis [1.6690512882610855]
ディープラーニングモデルは、臨床外の生理的パラメータを継続的に監視するために使用することができる。実践的な測定シナリオに配備された場合、パフォーマンスが悪くなるリスクがあり、負の患者結果につながる。ここでは、2つの臨床関連予測タスクで訓練されたモデルに対して、8つの不確実性(UQ)技術を実装する。
論文参考訳（メタデータ） (2025-10-31T22:54:13Z)
Conformal uncertainty quantification to evaluate predictive fairness of foundation AI model for skin lesion classes across patient demographics [8.692647930497936]
我々は、コンフォメーション解析を用いて、視覚変換器に基づく基礎モデルの予測不確かさを定量化する。基礎モデルの特徴埋め込みの堅牢性を評価するために、公正度測定としてどのように使用できるかを示す。
論文参考訳（メタデータ） (2025-03-31T08:06:00Z)
Evidential time-to-event prediction with calibrated uncertainty quantification [12.446406577462069]
Time-to-event分析は、臨床予後と治療勧告に関する洞察を提供する。本稿では,時間とイベントの予測に特化して設計された明らかな回帰モデルを提案する。我々のモデルは正確かつ信頼性の高い性能を提供し、最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-11-12T15:06:04Z)
SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-24T04:47:36Z)
Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文参考訳（メタデータ） (2024-03-09T13:48:20Z)
Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Hemogram Data as a Tool for Decision-making in COVID-19 Management: Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文参考訳（メタデータ） (2020-05-10T01:45:03Z)
Uncertainty estimation for classification and risk prediction on medical tabular data [0.0]
本研究は,医療データの分類とリスク予測のための不確実性推定の理解を深めるものである。医療などのデータ共有分野において、モデルの予測の不確実性を測定する能力は、意思決定支援ツールの改善につながる可能性がある。
論文参考訳（メタデータ） (2020-04-13T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。