論文の概要: Performance Estimation for Supervised Medical Image Segmentation Models on Unlabeled Data Using UniverSeg
- arxiv url: http://arxiv.org/abs/2504.15667v1
- Date: Tue, 22 Apr 2025 07:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:43:36.984441
- Title: Performance Estimation for Supervised Medical Image Segmentation Models on Unlabeled Data Using UniverSeg
- Title(参考訳): ユニバーセグを用いたラベルなしデータに基づく医用画像分割モデルの性能評価
- Authors: Jingchen Zou, Jianqiang Li, Gabriel Jimenez, Qing Zhao, Daniel Racoceanu, Matias Cosarinsky, Enzo Ferrante, Guanghui Fu,
- Abstract要約: ラベルのないデータに対してセグメンテーションモデルの性能を推定するためのフレームワークを提案する。
Performance Evaluator (SPE) フレームワークは任意のモデルトレーニングプロセスにシームレスに統合される。
- 参考スコア(独自算出の注目度): 8.893478932454082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of medical image segmentation models is usually evaluated using metrics like the Dice score and Hausdorff distance, which compare predicted masks to ground truth annotations. However, when applying the model to unseen data, such as in clinical settings, it is often impractical to annotate all the data, making the model's performance uncertain. To address this challenge, we propose the Segmentation Performance Evaluator (SPE), a framework for estimating segmentation models' performance on unlabeled data. This framework is adaptable to various evaluation metrics and model architectures. Experiments on six publicly available datasets across six evaluation metrics including pixel-based metrics such as Dice score and distance-based metrics like HD95, demonstrated the versatility and effectiveness of our approach, achieving a high correlation (0.956$\pm$0.046) and low MAE (0.025$\pm$0.019) compare with real Dice score on the independent test set. These results highlight its ability to reliably estimate model performance without requiring annotations. The SPE framework integrates seamlessly into any model training process without adding training overhead, enabling performance estimation and facilitating the real-world application of medical image segmentation algorithms. The source code is publicly available
- Abstract(参考訳): 医用画像セグメンテーションモデルの性能は通常、予測マスクとグラウンド真理アノテーションを比較するDiceスコアやHausdorff距離などの指標を用いて評価される。
しかし、臨床的な設定のように、モデルを目に見えないデータに適用する場合、全てのデータに注釈を付けることは現実的ではないことが多く、モデルの性能は不確実である。
この課題に対処するため,未ラベルデータ上でセグメンテーションモデルの性能を推定するフレームワークであるセグメンテーション性能評価器 (SPE) を提案する。
このフレームワークはさまざまな評価指標やモデルアーキテクチャに適用可能です。
DiceスコアやHD95のような距離ベースのメトリクスを含む6つの評価指標を対象とした6つの公開データセットの実験は、我々のアプローチの汎用性と有効性を示し、高い相関(0.956$\pm$0.046)と低いMAE(0.025$\pm$0.019)を独立テストセットの実際のDiceスコアと比較した。
これらの結果は、アノテーションを必要とせずにモデルパフォーマンスを確実に見積もることができる能力を強調します。
SPEフレームワークは、トレーニングオーバーヘッドを追加することなく、任意のモデルトレーニングプロセスにシームレスに統合し、パフォーマンス推定を可能にし、医療画像セグメンテーションアルゴリズムの現実的な適用を容易にする。
ソースコードは公開されています
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Towards Ground-truth-free Evaluation of Any Segmentation in Medical Images [22.36128130052757]
本研究では,Segment Anything Model (SAM) が生成するセグメンテーションの質と,医療画像におけるその変種を評価するために,ゼロトラストフリー評価モデルを構築した。
この評価モデルは、入力画像と対応するセグメンテーション予測との一貫性と一貫性を解析することにより、セグメンテーション品質スコアを推定する。
論文 参考訳(メタデータ) (2024-09-23T10:12:08Z) - Estimating Model Performance Under Covariate Shift Without Labels [9.804680621164168]
ラベルなしデータの分類モデルを評価するために,確率的適応性能推定(PAPE)を導入する。
PAPEは他の評価手法よりも正確な性能推定を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:29:30Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - A quality assurance framework for real-time monitoring of deep learning
segmentation models in radiotherapy [3.5752677591512487]
この研究は、品質保証フレームワークを確立するために、心臓のサブ構造セグメンテーションを例として用いている。
心電図(CT)画像と241例の心電図を用いたベンチマークデータセットを収集した。
訓練されたDenoising Autoencoder(DAE)と2つの手動特徴を利用して画像領域シフト検出器を開発した。
Dice similarity coefficient (DSC) を用いて患者ごとのセグメンテーション精度を予測するための回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-05-19T14:51:05Z) - AI in the Loop -- Functionalizing Fold Performance Disagreement to
Monitor Automated Medical Image Segmentation Pipelines [0.0]
臨床的実践に機械学習を安全に実装するためには、パフォーマンス予測が不十分なことを自動でフラグする手法が不可欠である。
本稿では、異なるデータセットの折りたたみ部で訓練されたサブモデルを用いて、容易に適用可能な手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T21:35:23Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - A critical analysis of metrics used for measuring progress in artificial
intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文 参考訳(メタデータ) (2020-08-06T11:14:37Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。