論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical
Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v1
- Date: Thu, 28 Dec 2023 18:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-29 14:55:44.554443
- Title: One Model to Rule them All: Towards Universal Segmentation for Medical
Images with Text Prompts
- Title(参考訳): すべてを支配する一つのモデル:テキストプロンプトによる医用画像のユニバーサルセグメンテーションに向けて
- Authors: Ziheng Zhao and Yao Zhang and Chaoyi Wu and Xiaoman Zhang and Ya Zhang
and Yanfeng Wang and Weidi Xie
- Abstract要約: 本研究は、SATと呼ばれるテキストプロンプトによって駆動される医療シナリオにおけるSegment Anythingを構築できるモデルの構築に焦点を当てる。
トレーニング用の大規模なセグメンテーションデータセットを構築し、31のセグメンテーションデータセットから11K以上の3D医療画像スキャンを収集します。
本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
- 参考スコア(独自算出の注目度): 65.69028800097225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on building up a model that can Segment Anything in
medical scenarios, driven by Text prompts, termed as SAT. Our main
contributions are three folds: (i) on data construction, we combine multiple
knowledge sources to construct a multi-modal medical knowledge tree; Then we
build up a large-scale segmentation dataset for training, by collecting over
11K 3D medical image scans from 31 segmentation datasets with careful
standardization on both visual scans and label space; (ii) on model training,
we formulate a universal segmentation model, that can be prompted by inputting
medical terminologies in text form. We present a knowledge-enhanced
representation learning framework, and a series of strategies for effectively
training on the combination of a large number of datasets; (iii) on model
evaluation, we train a SAT-Nano with only 107M parameters, to segment 31
different segmentation datasets with text prompt, resulting in 362 categories.
We thoroughly evaluate the model from three aspects: averaged by body regions,
averaged by classes, and average by datasets, demonstrating comparable
performance to 36 specialist nnUNets, i.e., we train nnUNet models on each
dataset/subset, resulting in 36 nnUNets with around 1000M parameters for the 31
datasets. We will release all the codes, and models used in this report, i.e.,
SAT-Nano. Moreover, we will offer SAT-Ultra in the near future, which is
trained with model of larger size, on more diverse datasets. Webpage URL:
https://zhaoziheng.github.io/MedUniSeg.
- Abstract(参考訳): 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションのモデルの構築に焦点をあてる。
主な貢献は3つあります
(i)データ構築において、複数の知識ソースを組み合わせてマルチモーダルな医療知識ツリーを構築する。次いで、31のセグメンテーションデータセットから11K以上の3D画像スキャンを収集し、視覚スキャンとラベル空間の両方を慎重に標準化することにより、トレーニング用の大規模セグメンテーションデータセットを構築する。
(II) モデルトレーニングでは, 医療用語をテキスト形式で入力することで, 普遍的なセグメンテーションモデルを定式化する。
本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
3) モデル評価では,107MパラメータのみのSAT-Nanoをトレーニングし,31種類のセグメンテーションデータセットをテキストプロンプトで分割し,362のカテゴリに分類する。
ボディ領域の平均値、クラスの平均値、データセットの平均値の3つの側面からモデルを徹底的に評価し、36のスペシャリストnnunets、すなわち、各データセット/サブセットでnnunetモデルをトレーニングし、31のデータセットに対して約1000mのパラメータを持つ36のnnunetsを生成した。
このレポートで使用されるすべてのコードとモデル、すなわちSAT-Nanoをリリースします。
さらに近い将来、より多様なデータセットに基づいて、より大きなサイズのモデルでトレーニングされたSAT-Ultraも提供します。
WebページURL: https://zhaoziheng.github.io/MedUniSeg.com
関連論文リスト
- MedSAM2: Segment Anything in 3D Medical Images and Videos [16.709180067792538]
本稿では,3次元画像と映像のセグメンテーションのための高速セグメンテーション基盤モデルであるMedSAM2を提案する。
このモデルは、Segment Anything Model 2を455,000以上の3Dイメージマスクペアと76,000フレームの大規模な医療データセットで微調整することによって開発されている。
さらに、我々は、大規模データセットの作成を容易にするために、5,000個のCT病変、3,984個の肝MRI病変、251,550個の心エコービデオフレームのアノテーションを含む、我々の知る限り、これまでで最も広範なユーザー調査を行った。
論文 参考訳(メタデータ) (2025-04-04T17:13:37Z) - TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。
22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文 参考訳(メタデータ) (2023-11-22T13:27:36Z) - SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images [35.83393121891959]
ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。
SAM-Med3Dは様々な解剖学的構造と病変を正確に分類することができる。
提案手法は,医療資源を多用した汎用医療AIの開発に活用できることを実証するものである。
論文 参考訳(メタデータ) (2023-10-23T17:57:36Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Continual Segment: Towards a Single, Unified and Accessible Continual
Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。
私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文 参考訳(メタデータ) (2023-02-01T00:49:21Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z) - Few-shot image segmentation for cross-institution male pelvic organs
using registration-assisted prototypical learning [13.567073992605797]
本研究は,医用画像のための最初の3D画像間セグメンテーションネットワークを提案する。
興味のある8つの領域を持つ前立腺がん患者のラベル付き多施設データセットを使用する。
内蔵登録機構は、被験者間の一貫性のある解剖学の事前知識を効果的に活用することができる。
論文 参考訳(メタデータ) (2022-01-17T11:44:10Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。