論文の概要: Performance evaluation of predictive AI models to support medical decisions: Overview and guidance
- arxiv url: http://arxiv.org/abs/2412.10288v1
- Date: Fri, 13 Dec 2024 17:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:41.092767
- Title: Performance evaluation of predictive AI models to support medical decisions: Overview and guidance
- Title(参考訳): 医学的意思決定を支援する予測AIモデルの性能評価:概観とガイダンス
- Authors: Ben Van Calster, Gary S. Collins, Andrew J. Vickers, Laure Wynants, Kathleen F. Kerr, Lasai Barreñada, Gael Varoquaux, Karandeep Singh, Karel G. M. Moons, Tina Hernandez-boussard, Dirk Timmerman, David J. Mclernon, Maarten Van Smeden, Ewout W. Steyerberg,
- Abstract要約: 本稿では,医療実践における予測AIモデルの有効性を検証する際に,古典的,現代的パフォーマンス指標のメリットを評価することを目的とする。
ここでは,5つのパフォーマンス領域(識別,校正,総合,分類,臨床ユーティリティ)を対象として,グラフィカルな評価を伴う32のパフォーマンス指標について論じる。
- 参考スコア(独自算出の注目度): 9.674673298809324
- License:
- Abstract: A myriad of measures to illustrate performance of predictive artificial intelligence (AI) models have been proposed in the literature. Selecting appropriate performance measures is essential for predictive AI models that are developed to be used in medical practice, because poorly performing models may harm patients and lead to increased costs. We aim to assess the merits of classic and contemporary performance measures when validating predictive AI models for use in medical practice. We focus on models with a binary outcome. We discuss 32 performance measures covering five performance domains (discrimination, calibration, overall, classification, and clinical utility) along with accompanying graphical assessments. The first four domains cover statistical performance, the fifth domain covers decision-analytic performance. We explain why two key characteristics are important when selecting which performance measures to assess: (1) whether the measure's expected value is optimized when it is calculated using the correct probabilities (i.e., a "proper" measure), and (2) whether they reflect either purely statistical performance or decision-analytic performance by properly considering misclassification costs. Seventeen measures exhibit both characteristics, fourteen measures exhibited one characteristic, and one measure possessed neither characteristic (the F1 measure). All classification measures (such as classification accuracy and F1) are improper for clinically relevant decision thresholds other than 0.5 or the prevalence. We recommend the following measures and plots as essential to report: AUROC, calibration plot, a clinical utility measure such as net benefit with decision curve analysis, and a plot with probability distributions per outcome category.
- Abstract(参考訳): 予測人工知能(AI)モデルの性能を示すための無数の尺度が文献で提案されている。
適切なパフォーマンス対策を選択することは、医療現場で使用されるように開発された予測AIモデルにとって不可欠である。
本稿では,医療実践における予測AIモデルの有効性を検証する際に,古典的,現代的パフォーマンス指標のメリットを評価することを目的とする。
バイナリ結果のモデルに重点を置いています。
ここでは,5つのパフォーマンス領域(識別,校正,総合,分類,臨床ユーティリティ)を対象として,グラフィカルな評価を伴う32のパフォーマンス指標について論じる。
最初の4つのドメインは統計的なパフォーマンスを、第5のドメインは意思決定分析のパフォーマンスをカバーします。
本研究は,(1)適切な確率を用いて計算した場合の期待値が最適化されるか否か(すなわち,「適切な」尺度),(2)誤分類コストを適切に考慮して純粋に統計的性能または決定分析性能を反映するか否か,の2つの重要な特徴を論じる。
17の測度は両方の特性を示し、14の測度は1つの特性を示し、1の測度は2つの特性を持たない(F1測度)。
全ての分類基準(分類精度やF1)は、0.5以上の臨床的に関係のある決定しきい値に不適切である。
AUROC, 校正プロット, 決定曲線分析による純利益などの臨床効用尺度, 結果カテゴリーごとの確率分布を持つプロット。
関連論文リスト
- Advancements In Heart Disease Prediction: A Machine Learning Approach For Early Detection And Risk Assessment [0.0]
本稿では,臨床データを用いた心疾患のリスク予測における機械学習モデルの役割,関連性,効率性を理解し,評価し,分析する。
Support Vector Machine (SVM) は91.51%の精度を示し、予測能力の観点から評価されたモデル間にその優位性を確認している。
論文 参考訳(メタデータ) (2024-10-16T22:32:19Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Uncertainty Quantification on Clinical Trial Outcome Prediction [37.25114005044208]
本稿では,不確実性の定量化を臨床治験結果の予測に取り入れることを提案する。
私たちの主な目標は、ニュアンスドの違いを識別するモデルの能力を強化することです。
我々は目的を達成するために選択的な分類手法を採用した。
論文 参考訳(メタデータ) (2024-01-07T13:48:05Z) - Uncertainty Aware Training to Improve Deep Learning Model Calibration
for Classification of Cardiac MR Images [3.9402047771122812]
予測の不確実性の定量化は、より信頼できるAIモデルを開発する方法の1つとして特定されている。
我々は,2つの最先端アプローチと比較して,新しい不確実性を考慮した3つのトレーニング戦略を評価する。
論文 参考訳(メタデータ) (2023-08-29T09:19:49Z) - A Meta-Learning Method for Estimation of Causal Excursion Effects to Assess Time-Varying Moderation [0.0]
本稿では,メタ・ラーナーの観点からの因果抽出効果の推定について再検討する。
提案する推定器の特性を理論的および広範囲なシミュレーションにより比較する。
その結果, 相対効率が向上し, 既存手法の2倍頑健な代替案が提案された。
論文 参考訳(メタデータ) (2023-06-28T15:19:33Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。