論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v2
- Date: Wed, 1 May 2024 18:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 21:50:58.804589
- Title: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
- Title(参考訳): 全てを規定する1つのモデル:テキストプロンプトを用いた医用画像のユニバーサルセグメンテーションを目指して
- Authors: Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: SATと呼ばれるテキストプロンプトによって駆動される医療シナリオにおけるSegment Anythingの実現を目的としたモデルを構築します。
トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
447Mパラメータしか持たないSAT-Proをトレーニングし、72種類のセグメンテーションデータセットをテキストプロンプトでセグメント化し、497のクラスを生成する。
- 参考スコア(独自算出の注目度): 62.55349777609194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on building up a model that aims to Segment Anything in medical scenarios, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) for dataset construction, we combine multiple knowledge sources to construct the first multi-modal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then we build up the largest and most comprehensive segmentation dataset for training, by collecting over 22K 3D medical image scans from 72 segmentation datasets with careful standardization on both image scans and label space; (ii) for architecture design, we formulate a universal segmentation model, that can be prompted by inputting medical terminologies in text form. We present knowledge-enhanced representation learning on the combination of a large number of datasets; (iii) for model evaluation, we train a SAT-Pro with only 447M parameters, to segment 72 different segmentation datasets with text prompt, resulting in 497 classes. We have thoroughly evaluated the model from three aspects: averaged by body regions, averaged by classes, and average by datasets, demonstrating comparable performance to 72 specialist nnU-Nets, i.e., we train nnU-Net models on each dataset/subset, resulting in 72 nnU-Nets with around 2.2B parameters for the 72 datasets. We will release all the codes, and models in this work.
- Abstract(参考訳): 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションを目標とするモデルの構築に焦点をあてる。
主なコントリビューションは3つあります。
i) データセット構築には,人体解剖学上の最初のマルチモーダル知識ツリーを構築するために,複数の知識ソースを組み合わせて,72のセグメンテーションデータセットから22K以上の医用画像スキャンを収集し,画像スキャンとラベル空間の両方を慎重に標準化することにより,最大かつ最も包括的なセグメンテーションデータセットを構築した。
(II) 建築設計において, 医療用語をテキスト形式で入力することにより, 普遍的なセグメンテーションモデルを定式化する。
多数のデータセットの組み合わせによる知識強化表現学習を提案する。
3) モデル評価では,447MパラメータのみのSAT-Proをトレーニングし,72種類のセグメンテーションデータセットをテキストプロンプトで分割し,結果として497のクラスを生成する。
各データセット/サブセットに nnU-Net モデルをトレーニングし,72 nnU-Net と約 2.2B のパラメータを持つ結果となった。
この作業では、すべてのコードとモデルをリリースします。
関連論文リスト
- TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。
22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文 参考訳(メタデータ) (2023-11-22T13:27:36Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Continual Segment: Towards a Single, Unified and Accessible Continual
Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。
私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文 参考訳(メタデータ) (2023-02-01T00:49:21Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。