論文の概要: Quality Sentinel: Estimating Label Quality and Errors in Medical Segmentation Datasets
- arxiv url: http://arxiv.org/abs/2406.00327v1
- Date: Sat, 1 Jun 2024 07:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:34:33.673756
- Title: Quality Sentinel: Estimating Label Quality and Errors in Medical Segmentation Datasets
- Title(参考訳): 品質感:医療セグメンテーションデータセットにおけるラベル品質と誤差の推定
- Authors: Yixiong Chen, Zongwei Zhou, Alan Yuille,
- Abstract要約: 医用セグメンテーションデータセットのマニュアルアノテーションと比較してラベル品質を推定するための回帰モデルであるQuality Sentinelを導入する。
この回帰モデルは、私たちが開発した400万以上の画像ラベルペアでトレーニングされました。
われわれの品質センサーは、142のボディ構造のラベル品質を予測できる。
- 参考スコア(独自算出の注目度): 11.134987228105162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing number of public datasets have shown a transformative impact on automated medical segmentation. However, these datasets are often with varying label quality, ranging from manual expert annotations to AI-generated pseudo-annotations. There is no systematic, reliable, and automatic quality control (QC). To fill in this bridge, we introduce a regression model, Quality Sentinel, to estimate label quality compared with manual annotations in medical segmentation datasets. This regression model was trained on over 4 million image-label pairs created by us. Each pair presents a varying but quantified label quality based on manual annotations, which enable us to predict the label quality of any image-label pairs in the inference. Our Quality Sentinel can predict the label quality of 142 body structures. The predicted label quality quantified by Dice Similarity Coefficient (DSC) shares a strong correlation with ground truth quality, with a positive correlation coefficient (r=0.902). Quality Sentinel has found multiple impactful use cases. (I) We evaluated label quality in publicly available datasets, where quality highly varies across different datasets. Our analysis also uncovers that male and younger subjects exhibit significantly higher quality. (II) We identified and corrected poorly annotated labels, achieving 1/3 reduction in annotation costs with optimal budgeting on TotalSegmentator. (III) We enhanced AI training efficiency and performance by focusing on high-quality pseudo labels, resulting in a 33%--88% performance boost over entropy-based methods, with a cost of 31% time and 4.5% memory. The data and model are released.
- Abstract(参考訳): 公開データセットの増加は、自動化された医療セグメンテーションに変革的な影響を示している。
しかしながら、これらのデータセットは、手動のエキスパートアノテーションからAI生成の擬似アノテーションまで、さまざまなラベル品質を持つことが多い。
体系的で信頼性があり、自動品質管理(QC)はない。
このブリッジを埋めるために、医療セグメント化データセットのマニュアルアノテーションと比較してラベル品質を推定する回帰モデル、Quality Sentinelを導入する。
この回帰モデルは、私たちが開発した400万以上の画像ラベルペアでトレーニングされました。
各ペアは、手動のアノテーションに基づいて、変動するが定量化されたラベル品質を示し、推論において、任意の画像ラベルペアのラベル品質を予測できる。
われわれの品質センサーは、142のボディ構造のラベル品質を予測することができる。
Dice similarity Coefficient (DSC) によって定量化された予測されたラベル品質は、正の相関係数 (r=0.902) とともに、地上の真実品質と強い相関関係を持つ。
Quality Sentinelは、いくつかの影響のあるユースケースを見つけた。
(I) 公開データセットにおけるラベル品質の評価を行った。
分析の結果,男性と若年者の品質が著しく向上していることが判明した。
(II)
TotalSegmentatorを最適予算化することによりアノテーションコストの1/3削減を実現し,アノテートが不十分なラベルを特定し,修正した。
(III)
高品質な擬似ラベルに着目してAIトレーニングの効率とパフォーマンスを向上させた結果、エントロピーベースの手法よりも33%~88%のパフォーマンスが向上し、コストは31%、メモリは4.5%になった。
データとモデルがリリースされる。
関連論文リスト
- Balancing Label Quantity and Quality for Scalable Elicitation [2.2143065226946423]
本研究では,NLP分類タスクにおける量品質トレードオフのミクロ経済性について検討する。
教師付き微調整を用いた事前学習モデルから分類知識を抽出する3つの方法について検討した。
固定ラベル付予算において,教師付き微調整の精度を最大5ポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T04:39:58Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - MarginMatch: Improving Semi-Supervised Learning with Pseudo-Margins [73.17295479535161]
MarginMatchは、一貫性の正規化と擬似ラベルを組み合わせた新しいSSLアプローチである。
トレーニングが進むにつれて、擬似ラベル付きモデル上でのモデルの振る舞いを分析し、低品質な予測が隠蔽されることを確かめる。
CIFAR-100では,クラス毎に25ラベル,STL-10では3.78%,クラス毎に4ラベルで3.25%の誤差率向上を実現した。
論文 参考訳(メタデータ) (2023-08-17T15:19:04Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Improving Medical Annotation Quality to Decrease Labeling Burden Using
Stratified Noisy Cross-Validation [3.690031561736533]
医用画像の診断における多様性は十分に確立されており、トレーニングにおける多様性と医療ラベルの課題への注意がこの問題を悪化させる可能性がある。
Noisy Cross-Validationはトレーニングデータを半分に分割し、コンピュータビジョンタスクの低品質ラベルを特定する。
本稿では, SNCV (Stratified Noisy Cross-Validation) について紹介する。
論文 参考訳(メタデータ) (2020-09-22T23:32:59Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。