論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v3
- Date: Thu, 11 Jul 2024 06:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:27:37.536006
- Title: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
- Title(参考訳): 全てを規定する1つのモデル:テキストプロンプトを用いた医用画像のユニバーサルセグメンテーションを目指して
- Authors: Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 我々は、SATと呼ばれるテキストプロンプトによって駆動される放射線学的スキャンにおいて、任意のセグメンテーションを可能にするモデルを構築することを目指している。
トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
我々はSAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 62.55349777609194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we aim to build up a model that can Segment Anything in radiology scans, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) for dataset construction, we construct the first multi-modal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then we build up the largest and most comprehensive segmentation dataset for training, by collecting over 22K 3D medical image scans from 72 segmentation datasets, across 497 classes, with careful standardization on both image scans and label space; (ii) for architecture design, we propose to inject medical knowledge into a text encoder via contrastive learning, and then formulate a universal segmentation model, that can be prompted by feeding in medical terminologies in text form; (iii) As a result, we have trained SAT-Nano (110M parameters) and SAT-Pro (447M parameters), demonstrating comparable performance to 72 specialist nnU-Nets trained on each dataset/subsets. We validate SAT as a foundational segmentation model, with better generalization ability on external (unseen) datasets, and can be further improved on specific tasks after fine-tuning adaptation. Comparing with interactive segmentation model, for example, MedSAM, segmentation model prompted by text enables superior performance, scalability and robustness. As a use case, we demonstrate that SAT can act as a powerful out-of-the-box agent for large language models, enabling visual grounding in clinical procedures such as report generation. All the data, codes, and models in this work have been released.
- Abstract(参考訳): 本研究では,SATと呼ばれるテキストプロンプトを駆動する放射線学スキャンにおいて,任意のセグメンテーションを生成できるモデルを構築することを目的とする。
主なコントリビューションは3つあります。
そして,72のセグメンテーションデータセットから22K以上の3D画像スキャンを,497のクラスにわたって収集し,画像スキャンとラベル空間の両方を慎重に標準化することで,トレーニングのための最大かつ最も包括的なセグメンテーションデータセットを構築した。
(ii) 建築設計においては, コントラスト学習を通じて医療知識をテキストエンコーダに注入し, テキスト形式で医療用語を入力することにより, 普遍的なセグメンテーションモデルを定式化することを提案する。
その結果、SAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
SATを基本セグメント化モデルとして検証し、外部(見えない)データセットの一般化能力を向上し、微調整適応後の特定のタスクでさらに改善することができる。
MedSAMのようなインタラクティブなセグメンテーションモデルと比較して、テキストによって引き起こされるセグメンテーションモデルは、優れたパフォーマンス、スケーラビリティ、堅牢性を実現する。
症例として,SATは大規模言語モデルのための強力なアウト・オブ・ザ・ボックスエージェントとして機能し,報告生成などの臨床手順における視覚的基盤化を可能にした。
この作業のすべてのデータ、コード、モデルがリリースされた。
関連論文リスト
- TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。
22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文 参考訳(メタデータ) (2023-11-22T13:27:36Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Continual Segment: Towards a Single, Unified and Accessible Continual
Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。
私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文 参考訳(メタデータ) (2023-02-01T00:49:21Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。