論文の概要: Large-Scale Label Quality Assessment for Medical Segmentation via a Vision-Language Judge and Synthetic Data
- arxiv url: http://arxiv.org/abs/2601.14406v1
- Date: Tue, 20 Jan 2026 19:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.127935
- Title: Large-Scale Label Quality Assessment for Medical Segmentation via a Vision-Language Judge and Synthetic Data
- Title(参考訳): 視覚言語判断と合成データを用いた医用セグメンテーションのための大規模ラベル品質評価
- Authors: Yixiong Chen, Zongwei Zhou, Wenxuan Li, Alan Yuille,
- Abstract要約: 本稿では,142個の解剖学的構造にまたがるラベル品質を自動的に予測する軽量視覚監視モデルであるSegAEを提案する。
品質スコアを持つ400万枚以上の画像ラベルのペアでトレーニングされたセセエは、Diceの接地特性と0.902の高い相関係数を達成する。
SegAEは、アクティブおよび半言語学習におけるデータ効率とトレーニングパフォーマンスを改善し、データセットアノテーションのコストを3分の1削減し、1ラベルあたりの品質チェック時間を70%削減する。
- 参考スコア(独自算出の注目度): 19.936361201674593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale medical segmentation datasets often combine manual and pseudo-labels of uneven quality, which can compromise training and evaluation. Low-quality labels may hamper performance and make the model training less robust. To address this issue, we propose SegAE (Segmentation Assessment Engine), a lightweight vision-language model (VLM) that automatically predicts label quality across 142 anatomical structures. Trained on over four million image-label pairs with quality scores, SegAE achieves a high correlation coefficient of 0.902 with ground-truth Dice similarity and evaluates a 3D mask in 0.06s. SegAE shows several practical benefits: (I) Our analysis reveals widespread low-quality labeling across public datasets; (II) SegAE improves data efficiency and training performance in active and semi-supervised learning, reducing dataset annotation cost by one-third and quality-checking time by 70% per label. This tool provides a simple and effective solution for quality control in large-scale medical segmentation datasets. The dataset, model weights, and codes are released at https://github.com/Schuture/SegAE.
- Abstract(参考訳): 大規模な医療セグメンテーションデータセットは、しばしば、トレーニングと評価を損なう可能性がある、不均一な品質のマニュアルと擬似ラベルを組み合わせる。
低品質なラベルはパフォーマンスを損なう可能性があり、モデルのトレーニングがより堅牢になる。
この問題に対処するために,142個の解剖学的構造にまたがるラベル品質を自動的に予測する軽量視覚言語モデル(VLM)であるSegAE(セグメンテーションアセスメントエンジン)を提案する。
品質スコアを持つ400万枚以上の画像ラベルのペアを用いて、SegAEはグラウンド・トゥルースDiceの類似性と0.902の高相関係数を達成し、0.06秒で3Dマスクを評価する。
SegAEは、アクティブかつ半教師付き学習におけるデータ効率とトレーニング性能を改善し、データセットのアノテーションコストを3分の1削減し、1ラベルあたりの品質チェック時間を70%削減します。
このツールは、大規模医療セグメンテーションデータセットの品質管理のためのシンプルで効果的なソリューションを提供する。
データセット、モデルウェイト、コードはhttps://github.com/Schuture/SegAEでリリースされている。
関連論文リスト
- Good Enough: Is it Worth Improving your Label Quality? [66.74591380455261]
高品質なラベルはドメイン内のパフォーマンスを改善するが、小さなしきい値以下では、利益は依然として不透明である。
事前トレーニングの場合、ラベルの品質は最小限の影響を受けており、モデルが詳細なアノテーションよりも一般的な概念を伝達することを示唆している。
論文 参考訳(メタデータ) (2025-05-27T09:18:24Z) - Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Quality Sentinel: Estimating Label Quality and Errors in Medical Segmentation Datasets [11.134987228105162]
医用セグメンテーションデータセットのマニュアルアノテーションと比較してラベル品質を推定するための回帰モデルであるQuality Sentinelを導入する。
この回帰モデルは、私たちが開発した400万以上の画像ラベルペアでトレーニングされました。
われわれの品質センサーは、142のボディ構造のラベル品質を予測できる。
論文 参考訳(メタデータ) (2024-06-01T07:03:15Z) - Leveraging Human-Machine Interactions for Computer Vision Dataset
Quality Enhancement [0.0]
emphImageNet-1kのようなシングルラベルのマルチクラス分類のための大規模データセットは、ディープラーニングやコンピュータビジョンの進歩に役立っている。
我々は、効率的なデータセット検証と品質向上のために、人間とマシンインテリジェンスをシナジする軽量でユーザフレンドリでスケーラブルなフレームワークを導入します。
ImageNetV2データセットでMultilabelfyを使用することで、画像の約47.88%が少なくとも2つのラベルを含んでいることがわかった。
論文 参考訳(メタデータ) (2024-01-31T10:57:07Z) - Pseudo Label-Guided Data Fusion and Output Consistency for
Semi-Supervised Medical Image Segmentation [9.93871075239635]
より少ないアノテーションで医用画像のセグメンテーションを行うための平均教師ネットワーク上に構築されたPLGDFフレームワークを提案する。
本稿では,ラベル付きデータとラベルなしデータを組み合わせてデータセットを効果的に拡張する,新しい擬似ラベル利用方式を提案する。
本フレームワークは,最先端の6つの半教師あり学習手法と比較して,優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-17T06:36:43Z) - COSST: Multi-organ Segmentation with Partially Labeled Datasets Using
Comprehensive Supervisions and Self-training [15.639976408273784]
ディープラーニングモデルは、マルチ組織セグメンテーションにおいて顕著な成功を収めてきたが、典型的には、興味のあるすべての器官に注釈を付けた大規模なデータセットを必要とする。
利用可能な部分ラベル付きデータセットの統一モデルを学習して、そのシナジスティックなポテンシャルを活用する方法については、調査が不可欠である。
COSSTと呼ばれる新しい2段階のフレームワークを提案し、このフレームワークは包括的監視信号と自己学習を効果的に効率的に統合する。
論文 参考訳(メタデータ) (2023-04-27T08:55:34Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Label-Assemble: Leveraging Multiple Datasets with Partial Labels [68.46767639240564]
Label-Assemble”は、公開データセットのアセンブリから部分的なラベルの可能性を最大限に活用することを目的としている。
陰例からの学習は,コンピュータ支援型疾患の診断と検出の双方を促進することが判明した。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z) - 3D medical image segmentation with labeled and unlabeled data using
autoencoders at the example of liver segmentation in CT images [58.720142291102135]
本研究では、畳み込みニューラルネットワークによるセグメンテーションを改善するために、オートエンコーダ抽出機能の可能性を検討する。
コンボリューション・オートエンコーダを用いてラベルのないデータから特徴を抽出し,CT画像における3次元肝セグメンテーションの目標タスクを実行するために,マルチスケールの完全畳み込みCNNを用いた。
論文 参考訳(メタデータ) (2020-03-17T20:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。