論文の概要: Performance uncertainty in medical image analysis: a large-scale investigation of confidence intervals
- arxiv url: http://arxiv.org/abs/2601.17103v1
- Date: Fri, 23 Jan 2026 16:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.230101
- Title: Performance uncertainty in medical image analysis: a large-scale investigation of confidence intervals
- Title(参考訳): 医用画像解析における性能不確実性--信頼区間の大規模調査
- Authors: Pascaline André, Charles Heitz, Evangelia Christodoulou, Annika Reinke, Carole H. Sudre, Michela Antonelli, Patrick Godau, M. Jorge Cardoso, Antoine Gilson, Sophie Tezenas du Montcel, Gaël Varoquaux, Lena Maier-Hein, Olivier Colliot,
- Abstract要約: 大規模な経験的分析を行い,全24項目のセグメンテーションと分類作業を行った。
各CIメソッドの信頼性(カバレッジ)と精度(幅)を,すべての設定で推定した。
これらの結果は、医用画像AIの性能不確実性を報告するための将来のガイドラインの開発において重要な要素となる。
- 参考スコア(独自算出の注目度): 10.057653407825887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance uncertainty quantification is essential for reliable validation and eventual clinical translation of medical imaging artificial intelligence (AI). Confidence intervals (CIs) play a central role in this process by indicating how precise a reported performance estimate is. Yet, due to the limited amount of work examining CI behavior in medical imaging, the community remains largely unaware of how many diverse CI methods exist and how they behave in specific settings. The purpose of this study is to close this gap. To this end, we conducted a large-scale empirical analysis across a total of 24 segmentation and classification tasks, using 19 trained models per task group, a broad spectrum of commonly used performance metrics, multiple aggregation strategies, and several widely adopted CI methods. Reliability (coverage) and precision (width) of each CI method were estimated across all settings to characterize their dependence on study characteristics. Our analysis revealed five principal findings: 1) the sample size required for reliable CIs varies from a few dozens to several thousands of cases depending on study parameters; 2) CI behavior is strongly affected by the choice of performance metric; 3) aggregation strategy substantially influences the reliability of CIs, e.g. they require more observations for macro than for micro; 4) the machine learning problem (segmentation versus classification) modulates these effects; 5) different CI methods are not equally reliable and precise depending on the use case. These results form key components for the development of future guidelines on reporting performance uncertainty in medical imaging AI.
- Abstract(参考訳): 医療画像人工知能(AI)の信頼性検証と最終的な臨床翻訳には,性能不確実性定量化が不可欠である。
信頼区間(CI)は、報告されたパフォーマンス見積の正確さを示すことによって、このプロセスにおいて中心的な役割を果たす。
しかし、医療画像におけるCIの振る舞いを調べる作業が限られているため、コミュニティは、いかに多様なCIメソッドが存在するか、特定の環境でどのように振る舞うかをほとんど知らないままである。
本研究の目的は, このギャップを埋めることである。
この目的のために,タスクグループ毎の19のトレーニングモデル,一般的なパフォーマンス指標の広い範囲,複数のアグリゲーション戦略,そして広く採用されているCIメソッドを用いて,合計24のセグメンテーションと分類タスクに対して大規模な実証分析を行った。
各CI手法の信頼性 (カバレッジ) と精度 (幅) を全設定で推定し, 研究特性への依存性を特徴づけた。
分析の結果,主訴は5つであった。
1)信頼性CIに必要なサンプルサイズは,研究パラメータによって数ダースから数千ケースまで様々である。
2)CI行動は,パフォーマンス指標の選択に強く影響される。
3) アグリゲーション戦略はCIの信頼性に大きく影響する。
4) 機械学習問題(区分と分類)は,これらの効果を変調する。
5) 異なるCIメソッドは、ユースケースによって等しく信頼性が高く、正確ではありません。
これらの結果は、医用画像AIの性能不確実性を報告するための将来のガイドラインの開発において重要な要素となる。
関連論文リスト
- Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets [51.2467404472005]
本稿では、複数の観測データセットからATEを推定し、有効なCIを提供する新しい手法を提案する。
本手法は観測データセットの仮定をほとんど行わず,医学的実践に広く応用できる。
論文 参考訳(メタデータ) (2024-12-16T07:39:46Z) - Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - PULASki: Learning inter-rater variability using statistical distances to improve probabilistic segmentation [35.34932609930401]
本研究は,バイオメディカルイメージセグメンテーションのための計算効率の良い生成ツールとしてのPULASki法を提案する。
専門家のアノテーションでは、小さなデータセットであっても、変数をキャプチャする。
また,3次元パッチと従来の2次元スライスを用いた複雑なジオメトリーの計算可能セグメンテーションについて比較検討した。
論文 参考訳(メタデータ) (2023-12-25T10:31:22Z) - The Blessings of Multiple Treatments and Outcomes in Treatment Effect
Estimation [53.81860494566915]
既存の研究では、プロキシ変数や複数の処理を利用してバイアスを補正している。
多くの実世界のシナリオでは、複数の結果に対する影響を研究することにより大きな関心がある。
この設定に関わる複数の結果の並列研究は、因果同定において互いに助け合うことが示されている。
論文 参考訳(メタデータ) (2023-09-29T14:33:48Z) - MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated
Learning [92.91544082745196]
フェデレートラーニング(FL)は医用画像解析に広く用いられている。
FLのパフォーマンスは、多発性硬化症(MS)病変セグメンテーションタスクに制限される。
2つの効果的な再重み付け機構によるFLMS病変分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-03T14:06:03Z) - Quality control for more reliable integration of deep learning-based
image segmentation into medical workflows [0.23609258021376836]
本稿では,その出力の確実性を推定するために,最先端自動品質制御(QC)手法の解析を行う。
磁気共鳴画像データにおける白色物質の超強度(WMH)を識別する脳画像分割タスクにおける最も有望なアプローチを検証した。
論文 参考訳(メタデータ) (2021-12-06T16:30:43Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。