論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical
Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v1
- Date: Thu, 28 Dec 2023 18:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:55:44.554443
- Title: One Model to Rule them All: Towards Universal Segmentation for Medical
Images with Text Prompts
- Title(参考訳): すべてを支配する一つのモデル:テキストプロンプトによる医用画像のユニバーサルセグメンテーションに向けて
- Authors: Ziheng Zhao and Yao Zhang and Chaoyi Wu and Xiaoman Zhang and Ya Zhang
and Yanfeng Wang and Weidi Xie
- Abstract要約: 本研究は、SATと呼ばれるテキストプロンプトによって駆動される医療シナリオにおけるSegment Anythingを構築できるモデルの構築に焦点を当てる。
トレーニング用の大規模なセグメンテーションデータセットを構築し、31のセグメンテーションデータセットから11K以上の3D医療画像スキャンを収集します。
本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
- 参考スコア(独自算出の注目度): 65.69028800097225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on building up a model that can Segment Anything in
medical scenarios, driven by Text prompts, termed as SAT. Our main
contributions are three folds: (i) on data construction, we combine multiple
knowledge sources to construct a multi-modal medical knowledge tree; Then we
build up a large-scale segmentation dataset for training, by collecting over
11K 3D medical image scans from 31 segmentation datasets with careful
standardization on both visual scans and label space; (ii) on model training,
we formulate a universal segmentation model, that can be prompted by inputting
medical terminologies in text form. We present a knowledge-enhanced
representation learning framework, and a series of strategies for effectively
training on the combination of a large number of datasets; (iii) on model
evaluation, we train a SAT-Nano with only 107M parameters, to segment 31
different segmentation datasets with text prompt, resulting in 362 categories.
We thoroughly evaluate the model from three aspects: averaged by body regions,
averaged by classes, and average by datasets, demonstrating comparable
performance to 36 specialist nnUNets, i.e., we train nnUNet models on each
dataset/subset, resulting in 36 nnUNets with around 1000M parameters for the 31
datasets. We will release all the codes, and models used in this report, i.e.,
SAT-Nano. Moreover, we will offer SAT-Ultra in the near future, which is
trained with model of larger size, on more diverse datasets. Webpage URL:
https://zhaoziheng.github.io/MedUniSeg.
- Abstract(参考訳): 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションのモデルの構築に焦点をあてる。
主な貢献は3つあります
(i)データ構築において、複数の知識ソースを組み合わせてマルチモーダルな医療知識ツリーを構築する。次いで、31のセグメンテーションデータセットから11K以上の3D画像スキャンを収集し、視覚スキャンとラベル空間の両方を慎重に標準化することにより、トレーニング用の大規模セグメンテーションデータセットを構築する。
(II) モデルトレーニングでは, 医療用語をテキスト形式で入力することで, 普遍的なセグメンテーションモデルを定式化する。
本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
3) モデル評価では,107MパラメータのみのSAT-Nanoをトレーニングし,31種類のセグメンテーションデータセットをテキストプロンプトで分割し,362のカテゴリに分類する。
ボディ領域の平均値、クラスの平均値、データセットの平均値の3つの側面からモデルを徹底的に評価し、36のスペシャリストnnunets、すなわち、各データセット/サブセットでnnunetモデルをトレーニングし、31のデータセットに対して約1000mのパラメータを持つ36のnnunetsを生成した。
このレポートで使用されるすべてのコードとモデル、すなわちSAT-Nanoをリリースします。
さらに近い将来、より多様なデータセットに基づいて、より大きなサイズのモデルでトレーニングされたSAT-Ultraも提供します。
WebページURL: https://zhaoziheng.github.io/MedUniSeg.com
関連論文リスト
- TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。
22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文 参考訳(メタデータ) (2023-11-22T13:27:36Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Continual Segment: Towards a Single, Unified and Accessible Continual
Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。
私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文 参考訳(メタデータ) (2023-02-01T00:49:21Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。