論文の概要: How precise are performance estimates for typical medical image
segmentation tasks?
- arxiv url: http://arxiv.org/abs/2210.14677v1
- Date: Wed, 26 Oct 2022 12:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 16:11:31.463915
- Title: How precise are performance estimates for typical medical image
segmentation tasks?
- Title(参考訳): 典型的な医用画像分割作業のパフォーマンス推定はどの程度正確か?
- Authors: Rosana El Jurdi and Olivier Colliot
- Abstract要約: 本稿では,医用画像セグメンテーション研究において期待できる,典型的な信頼度を推定することを目的とする。
ガウス仮定とブートストラッピングの両方を用いた精度推定を広範囲に研究した。
- 参考スコア(独自算出の注目度): 3.606795745041439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important issue in medical image processing is to be able to estimate not
only the performances of algorithms but also the precision of the estimation of
these performances. Reporting precision typically amounts to reporting
standard-error of the mean (SEM) or equivalently confidence intervals. However,
this is rarely done in medical image segmentation studies. In this paper, we
aim to estimate what is the typical confidence that can be expected in such
studies. To that end, we first perform experiments for Dice metric estimation
using a standard deep learning model (U-net) and a classical task from the
Medical Segmentation Decathlon. We extensively study precision estimation using
both Gaussian assumption and bootstrapping (which does not require any
assumption on the distribution). We then perform simulations for other test set
sizes and performance spreads. Overall, our work shows that small test sets
lead to wide confidence intervals ($\sim$6 points of Dice for 20 samples) and
that, in order to obtain a confidence interval narrower than 2, it is necessary
to have at least 200 test samples.
- Abstract(参考訳): 医用画像処理における重要な課題は、アルゴリズムの性能だけでなく、これらの性能の推定精度も推定できることである。
報告精度は通常、平均(SEM)の標準エラーの報告または同等の信頼区間に相当する。
しかし、医用画像分割研究ではほとんど行われない。
本稿では,このような研究で期待できる典型的な信頼度を推定することを目的とする。
そこで本研究では,標準深層学習モデル(u-net)と医学的セグメンテーション・デカスロンによる古典的タスクを用いて,diceメトリック推定実験を行った。
ガウス仮定とブートストラップ(分布の仮定を必要としない)の両方を用いて精度推定を広範囲に検討した。
次に、他のテストセットのサイズと性能のスプレッドをシミュレーションします。
本研究は,小テストセットが20サンプルに対してDiceの6点当たりの信頼区間を広く得ること,および2より狭い信頼区間を得るためには,少なくとも200個のテストサンプルを持つことが必要であることを示す。
関連論文リスト
- How Much is Unseen Depends Chiefly on Information About the Seen [2.169081345816618]
トレーニングデータに現れないクラスに属する未知の集団におけるデータポイントの割合は、トレーニングデータに同じ回数に現れるクラスの数$f_k$によってほぼ完全に決定される。
サンプルのみを用いて最小平均二乗誤差(MSE)を持つ推定器を探索する遺伝的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-08T17:12:49Z) - Confidence intervals for performance estimates in 3D medical image
segmentation [0.0]
医用画像セグメンテーションにおける典型的な信頼区間について検討した。
与えられた精度を達成するのに必要なテストサイズは、しばしば分類タスクよりもはるかに低いことを示します。
論文 参考訳(メタデータ) (2023-07-20T14:52:45Z) - Usable Region Estimate for Assessing Practical Usability of Medical
Image Segmentation Models [32.56957759180135]
医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。
まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。
次に、予測の正しさと信頼度を同時に定量化するURE(Usable Region Estimate)を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:33:44Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。