論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical
Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v1
- Date: Thu, 28 Dec 2023 18:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:55:44.554443
- Title: One Model to Rule them All: Towards Universal Segmentation for Medical
Images with Text Prompts
- Title(参考訳): すべてを支配する一つのモデル:テキストプロンプトによる医用画像のユニバーサルセグメンテーションに向けて
- Authors: Ziheng Zhao and Yao Zhang and Chaoyi Wu and Xiaoman Zhang and Ya Zhang
and Yanfeng Wang and Weidi Xie
- Abstract要約: 本研究は、SATと呼ばれるテキストプロンプトによって駆動される医療シナリオにおけるSegment Anythingを構築できるモデルの構築に焦点を当てる。
トレーニング用の大規模なセグメンテーションデータセットを構築し、31のセグメンテーションデータセットから11K以上の3D医療画像スキャンを収集します。
本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
- 参考スコア(独自算出の注目度): 65.69028800097225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on building up a model that can Segment Anything in
medical scenarios, driven by Text prompts, termed as SAT. Our main
contributions are three folds: (i) on data construction, we combine multiple
knowledge sources to construct a multi-modal medical knowledge tree; Then we
build up a large-scale segmentation dataset for training, by collecting over
11K 3D medical image scans from 31 segmentation datasets with careful
standardization on both visual scans and label space; (ii) on model training,
we formulate a universal segmentation model, that can be prompted by inputting
medical terminologies in text form. We present a knowledge-enhanced
representation learning framework, and a series of strategies for effectively
training on the combination of a large number of datasets; (iii) on model
evaluation, we train a SAT-Nano with only 107M parameters, to segment 31
different segmentation datasets with text prompt, resulting in 362 categories.
We thoroughly evaluate the model from three aspects: averaged by body regions,
averaged by classes, and average by datasets, demonstrating comparable
performance to 36 specialist nnUNets, i.e., we train nnUNet models on each
dataset/subset, resulting in 36 nnUNets with around 1000M parameters for the 31
datasets. We will release all the codes, and models used in this report, i.e.,
SAT-Nano. Moreover, we will offer SAT-Ultra in the near future, which is
trained with model of larger size, on more diverse datasets. Webpage URL:
https://zhaoziheng.github.io/MedUniSeg.
- Abstract(参考訳): 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションのモデルの構築に焦点をあてる。
主な貢献は3つあります
(i)データ構築において、複数の知識ソースを組み合わせてマルチモーダルな医療知識ツリーを構築する。次いで、31のセグメンテーションデータセットから11K以上の3D画像スキャンを収集し、視覚スキャンとラベル空間の両方を慎重に標準化することにより、トレーニング用の大規模セグメンテーションデータセットを構築する。
(II) モデルトレーニングでは, 医療用語をテキスト形式で入力することで, 普遍的なセグメンテーションモデルを定式化する。
本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
3) モデル評価では,107MパラメータのみのSAT-Nanoをトレーニングし,31種類のセグメンテーションデータセットをテキストプロンプトで分割し,362のカテゴリに分類する。
ボディ領域の平均値、クラスの平均値、データセットの平均値の3つの側面からモデルを徹底的に評価し、36のスペシャリストnnunets、すなわち、各データセット/サブセットでnnunetモデルをトレーニングし、31のデータセットに対して約1000mのパラメータを持つ36のnnunetsを生成した。
このレポートで使用されるすべてのコードとモデル、すなわちSAT-Nanoをリリースします。
さらに近い将来、より多様なデータセットに基づいて、より大きなサイズのモデルでトレーニングされたSAT-Ultraも提供します。
WebページURL: https://zhaoziheng.github.io/MedUniSeg.com
関連論文リスト
- One model to use them all: Training a segmentation model with
complementary datasets [40.296689201958024]
補足アノテーションを提供する部分注釈付きデータセットを1つのモデルに結合する手法を提案する。
このアプローチは6つのクラスを1つのモデルにうまく組み合わせ、全体のDice Scoreを4.4%増加させました。
胃と大腸の混同を24%減らすことができた。
論文 参考訳(メタデータ) (2024-02-29T16:46:49Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - MedLSAM: Localize and Segment Anything Model for 3D CT Images [14.290321536041816]
3次元医用画像の局所化モデル(MedLAM)を開発した。
MedLAMは、ほんの少しのテンプレートスキャンを使用して、解剖学的構造を直接ローカライズすることができる。
将来の3D SAMモデルとシームレスに統合される可能性がある。
論文 参考訳(メタデータ) (2023-06-26T15:09:02Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Universal Medical Image Segmentation using 3D Fabric Image
Representation Encoding Networks [8.691611603448152]
本稿では,Fabric Image Representationというネットワークを提案する。
Network (FIRENet) - 同時3Dマルチデータセットセグメンテーションのためのネットワーク。
本研究では, FIRENetを人工膝関節, 肩関節, 股関節の複数のデータセットを含む3次元普遍骨分割に適用した。
論文 参考訳(メタデータ) (2020-06-28T11:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。