論文の概要: Confidence intervals uncovered: Are we ready for real-world medical imaging AI?
- arxiv url: http://arxiv.org/abs/2409.17763v2
- Date: Fri, 27 Sep 2024 06:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 12:04:48.082920
- Title: Confidence intervals uncovered: Are we ready for real-world medical imaging AI?
- Title(参考訳): 信頼区間が明らかになった:現実の医療画像AIの準備は整っているか?
- Authors: Evangelia Christodoulou, Annika Reinke, Rola Houhou, Piotr Kalinowski, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofiène Boutaj, Sophie Loizillon, Maëlys Solal, Nicola Rieke, Veronika Cheplygina, Michela Antonelli, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Paul F. Jäger, Annette Kopp-Schneider, Gaël Varoquaux, Olivier Colliot, Lena Maier-Hein,
- Abstract要約: パフォーマンスレポートは、どの方法が臨床に翻訳されるべきかの鍵である。
本稿では,この一般的なプラクティスは,性能の変動を無視するので,しばしば誤解を招く単純化である,と論じる。
- 参考スコア(独自算出の注目度): 9.259971172560864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical imaging is spearheading the AI transformation of healthcare. Performance reporting is key to determine which methods should be translated into clinical practice. Frequently, broad conclusions are simply derived from mean performance values. In this paper, we argue that this common practice is often a misleading simplification as it ignores performance variability. Our contribution is threefold. (1) Analyzing all MICCAI segmentation papers (n = 221) published in 2023, we first observe that more than 50% of papers do not assess performance variability at all. Moreover, only one (0.5%) paper reported confidence intervals (CIs) for model performance. (2) To address the reporting bottleneck, we show that the unreported standard deviation (SD) in segmentation papers can be approximated by a second-order polynomial function of the mean Dice similarity coefficient (DSC). Based on external validation data from 56 previous MICCAI challenges, we demonstrate that this approximation can accurately reconstruct the CI of a method using information provided in publications. (3) Finally, we reconstructed 95% CIs around the mean DSC of MICCAI 2023 segmentation papers. The median CI width was 0.03 which is three times larger than the median performance gap between the first and second ranked method. For more than 60% of papers, the mean performance of the second-ranked method was within the CI of the first-ranked method. We conclude that current publications typically do not provide sufficient evidence to support which models could potentially be translated into clinical practice.
- Abstract(参考訳): 医療画像は、医療のAIトランスフォーメーションを先導している。
パフォーマンスレポートは、どの方法が臨床に翻訳されるべきかを決定するための鍵である。
多くの場合、幅広い結論は単に平均的なパフォーマンス値から導き出される。
本稿では,この一般的なプラクティスは,性能の変動を無視するので,しばしば誤解を招く単純化である,と論じる。
私たちの貢献は3倍です。
1)2023年に発表されたすべてのMICCAIセグメンテーション論文(n = 221)を分析した結果,論文の50%以上が性能変動を全く評価していないことが明らかとなった。
また,モデル性能に対する信頼区間(CI)を報告した論文は1紙(0.5%)のみであった。
2) 報告ボトルネックに対処するため, セグメンテーション論文における標準偏差 (SD) は, 平均Dice類似度係数 (DSC) の2次多項式関数で近似できることを示した。
56件のMICCAI課題の外部検証データに基づいて,本手法のCIを精度良く再構築できることを実証した。
(3) 最終的にMICCAI 2023セグメンテーション論文の平均DSC付近で95%CIを再構築した。
中央値CI幅は0.03で,第1位と第2位の間の中央値性能ギャップの3倍であった。
論文の60%以上において,第2ランク法の平均性能は第1ランク法のCI内であった。
結論として,現在の出版物は,どのモデルが臨床実践に翻訳できるかを裏付ける十分な証拠を提供していない。
関連論文リスト
- Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Confidence Interval Estimation of Predictive Performance in the Context of AutoML [1.8874301050354765]
AutoML設定では、信頼区間(CI)の推定は、推定のバイアスのため困難である。
本研究では,CI推定における9つの最先端手法と変種の比較評価を行う。
評価は、すべてではないにせよ、ほとんどのメソッドをカバーし、以前の作業を不均衡で小さなサンプルタスクにまで拡張した最初のものである。
論文 参考訳(メタデータ) (2024-06-12T11:26:29Z) - Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。
本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。
OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-29T09:27:40Z) - Confidence intervals for performance estimates in 3D medical image
segmentation [0.0]
医用画像セグメンテーションにおける典型的な信頼区間について検討した。
与えられた精度を達成するのに必要なテストサイズは、しばしば分類タスクよりもはるかに低いことを示します。
論文 参考訳(メタデータ) (2023-07-20T14:52:45Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - A new baseline for retinal vessel segmentation: Numerical identification
and correction of methodological inconsistencies affecting 100+ papers [0.0]
得られた性能スコアのコヒーレンスに関する詳細な数値解析を行った。
視野の使用に関する報告結果に矛盾が認められた。
これまでに達成された最高精度はFoV領域の0.9582であり、これは人間のアノテーションよりも1%高い。
論文 参考訳(メタデータ) (2021-11-06T11:09:11Z) - A Unified Framework for Generalized Low-Shot Medical Image Segmentation
with Scarce Data [24.12765716392381]
距離距離距離距離学習(DML)に基づく医用画像分割の一般化のための統一的枠組みを提案する。
DMLでは,各カテゴリの多モード混合表現を学習し,画素の深層埋め込みとカテゴリ表現との間の余弦距離に基づいて密接な予測を行う。
脳MRIおよび腹部CTデータセットの実験において,提案手法は標準DNN(3D U-Net)法と古典的登録(ANT)法に対して,低ショットセグメンテーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-18T13:01:06Z) - Inconsistency-aware Uncertainty Estimation for Semi-supervised Medical
Image Segmentation [92.9634065964963]
我々は、不確実性推定と個別の自己学習戦略に基づいて、新しい半教師付きセグメンテーションモデル、すなわち保守的ラディカルネットワーク(CoraNet)を提案する。
現在の技術と比較すると、ColaNetは優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-10-17T08:49:33Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - CNN-CASS: CNN for Classification of Coronary Artery Stenosis Score in
MPR Images [0.0]
MPR画像における狭窄の重症度を同定する自動モデルを開発した。
このモデルは3つのクラスのうちの1つを予測している: 正常の'no stenosis'、検出された'non-significant' - 1-50%の狭窄、'significant' - 50%以上の狭窄。
狭窄スコア分類では, 従来の検査結果と比較して, 80%の精度で精度が向上した。
論文 参考訳(メタデータ) (2020-01-23T15:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。