論文の概要: USE-Evaluator: Performance Metrics for Medical Image Segmentation Models
with Uncertain, Small or Empty Reference Annotations
- arxiv url: http://arxiv.org/abs/2209.13008v4
- Date: Thu, 7 Sep 2023 16:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 18:08:19.528865
- Title: USE-Evaluator: Performance Metrics for Medical Image Segmentation Models
with Uncertain, Small or Empty Reference Annotations
- Title(参考訳): USE-Evaluator:不確かさ,小ささ,明快な基準アノテーションを用いた医用画像分割モデルの性能指標
- Authors: Sophie Ostmeier, Brian Axelrod, Jeroen Bertels, Fabian Isensee,
Maarten G.Lansberg, Soren Christensen, Gregory W. Albers, Li-Jia Li, Jeremy
J. Heit
- Abstract要約: 症例の分布と公的なデータセットにおけるセグメンテーション作業の難易度との間には,臨床実践と比較してミスマッチがある。
一般的な指標は、特に臨床データセットにおいて、このミスマッチの影響を測ることに失敗する。
医用画像のセグメンテーションにおける基準アノテーションの不確かさ,小ささ,空さが指標の価値に与える影響について検討する。
- 参考スコア(独自算出の注目度): 5.672489398972326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance metrics for medical image segmentation models are used to measure
the agreement between the reference annotation and the predicted segmentation.
Usually, overlap metrics, such as the Dice, are used as a metric to evaluate
the performance of these models in order for results to be comparable. However,
there is a mismatch between the distributions of cases and difficulty level of
segmentation tasks in public data sets compared to clinical practice. Common
metrics fail to measure the impact of this mismatch, especially for clinical
data sets that include low signal pathologies, a difficult segmentation task,
and uncertain, small, or empty reference annotations. This limitation may
result in ineffective research of machine learning practitioners in designing
and optimizing models. Dimensions of evaluating clinical value include
consideration of the uncertainty of reference annotations, independence from
reference annotation volume size, and evaluation of classification of empty
reference annotations. We study how uncertain, small, and empty reference
annotations influence the value of metrics for medical image segmentation on an
in-house data set regardless of the model. We examine metrics behavior on the
predictions of a standard deep learning framework in order to identify metrics
with clinical value. We compare to a public benchmark data set (BraTS 2019)
with a high-signal pathology and certain, larger, and no empty reference
annotations. We may show machine learning practitioners, how uncertain, small,
or empty reference annotations require a rethinking of the evaluation and
optimizing procedures. The evaluation code was released to encourage further
analysis of this topic.
https://github.com/SophieOstmeier/UncertainSmallEmpty.git
- Abstract(参考訳): 医用画像セグメンテーションモデルの性能指標は、参照アノテーションと予測されたセグメンテーションの一致度を測定するために使用される。
通常、diceのような重なりメトリクスは、結果が同等になるためにこれらのモデルのパフォーマンスを評価するためのメトリクスとして使われます。
しかし, 症例の分布と公共データセットにおけるセグメンテーション作業の難易度との間には, 臨床実践と比較してミスマッチがある。
一般的なメトリクスは、このミスマッチの影響を測ることに失敗し、特に低信号の病理、難しいセグメンテーションタスク、不確実、小さい、空の参照アノテーションを含む臨床データセットに対してである。
この制限は、モデルの設計と最適化における機械学習実践者の非効率な研究をもたらす可能性がある。
臨床評価の課題は,参照アノテーションの不確実性,参照アノテーションのボリュームサイズからの独立性,空の参照アノテーションの分類の評価などである。
本研究では,医療画像のセグメンテーションにおける基準アノテーションが,モデルによらず,社内データセット上の指標値に与える影響について検討する。
本研究では,標準ディープラーニングフレームワークの予測におけるメトリクスの挙動を調べ,臨床価値のあるメトリクスを同定する。
我々は、公開ベンチマークデータセット(BraTS 2019)と、高信号の病理と、特定の、より大きな、空の参照アノテーションとを比較します。
機械学習の実践者や、不確実性、小ささ、空の参照アノテーションは、評価と最適化の手順を再考する必要がある。
評価コードは、このトピックのさらなる分析を促進するためにリリースされた。
https://github.com/SophieOstmeier/UncertainSmallEmpty.git
関連論文リスト
- Segmentation Quality and Volumetric Accuracy in Medical Imaging [0.9426448361599084]
現在の医療画像のセグメンテーションは、デファクト標準として領域ベース(Dice, F1スコア)と境界ベース(ハウスドルフ距離、表面距離)のメトリクスに依存している。
これらの指標は広く使用されているが、特にボリューム合意に関する統一的な解釈は欠如している。
本稿では,相対体積予測誤差(vpe)を用いて,セグメンテーションタスクから導出される体積予測の精度を直接評価する。
論文 参考訳(メタデータ) (2024-04-27T00:49:39Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Rethinking Generalization: The Impact of Annotation Style on Medical
Image Segmentation [9.056814157662965]
アノテーションのバイアスを無視するのではなく、アノテーションのバイアスをモデル化することで、データセット間のアノテーションスタイルの違いを考慮できる有望な方法が示される。
次に、特定の画像特徴と相関するモデルアノテーションスタイルに対する画像条件付け手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T15:28:49Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Label Cleaning Multiple Instance Learning: Refining Coarse Annotations
on Single Whole-Slide Images [83.7047542725469]
病理検体の全スライディング画像(WSI)における癌領域のアノテーションは、臨床診断、生医学研究、機械学習アルゴリズムの開発において重要な役割を担っている。
本稿では,外部トレーニングデータを必要とせず,単一のWSI上で粗いアノテーションを洗練するためのLC-MIL (Label Cleaning Multiple Instance Learning) を提案する。
乳癌リンパ節転移,肝癌,大腸癌の検体を併用した異種 WSI 実験の結果,LC-MIL は粗いアノテーションを著しく改善し,単一スライドから学習しながらも,最先端の代替品よりも優れていた。
論文 参考訳(メタデータ) (2021-09-22T15:06:06Z) - Disentangling Human Error from the Ground Truth in Segmentation of
Medical Images [12.009437407687987]
本稿では,純粋にノイズの多い観測のみから,個々のアノテータの信頼性,真のセグメンテーションラベル分布まで,共同学習手法を提案する。
本手法は,必要ならばシミュレートした3つの医用画像セグメンテーションデータセットと実際の多彩なアノテーションに対して有効であることを示す。
論文 参考訳(メタデータ) (2020-07-31T11:03:12Z) - Classifier uncertainty: evidence, potential impact, and probabilistic
treatment [0.0]
本稿では,混乱行列の確率モデルに基づいて,分類性能指標の不確かさを定量化する手法を提案する。
我々は、不確実性は驚くほど大きく、性能評価を制限できることを示した。
論文 参考訳(メタデータ) (2020-06-19T12:49:19Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。