論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v4
- Date: Wed, 05 Feb 2025 06:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:24:33.487465
- Title: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
- Title(参考訳): 全てを規定する1つのモデル:テキストプロンプトを用いた医用画像のユニバーサルセグメンテーションを目指して
- Authors: Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
- 参考スコア(独自算出の注目度): 62.55349777609194
- License:
- Abstract: In this study, we aim to build up a model that can Segment Anything in radiology scans, driven by medical terminologies as Text prompts, termed as SAT. Our main contributions are three folds: (i) for dataset construction, we construct the first multi-modal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then, we build up the largest and most comprehensive segmentation dataset for training, by collecting over 22K 3D medical image scans from72 segmentation datasets, across 497 classes, with careful standardization on both image scans and label space; (ii) for architecture design, we propose to inject medical knowledge into a text encoder via contrastive learning, and then formulate a universal segmentation model, that can be prompted by feeding in medical terminologies in text form; (iii) As a result, we have trained SAT-Nano (110M parameters) and SAT-Pro (447M parameters), demonstrating superior or comparable performance to 72 specialist models, i.e., nnU-Nets, U-Mamba or SwinUNETR, trained on each dataset/subsets. We validate SAT as a foundational segmentation model, with better generalization on external (cross-center) datasets, and can be further improved on specific tasks after fine-tuning adaptation. Comparing with state-of-the-art interactive segmentation model MedSAM, SAT demonstrate superior performance, scalability and robustness. We further compare SAT with BiomedParse, and observe SAT is significantly superior in both internal and external evaluation. Through extensive ablation study, we validate the benefit of domain knowledge on universal segmentation, especially on tail categories. As a use case, we demonstrate that SAT can act as a powerful out-of-the-box agent for large language models, enabling visual grounding in versatile application scenarios. All the data, codes, and models in this work have been released.
- Abstract(参考訳): そこで本研究では,放射線検査におけるセグメンテーションをテキストプロンプト(SAT)と呼ぶ医療用語を駆使したモデルを構築することを目的とする。
主なコントリビューションは3つあります。
そして,72のセグメンテーションデータセットから22K以上の3D画像スキャンを497のクラスに集め,画像スキャンとラベル空間の両方を慎重に標準化することで,トレーニングのための最大かつ最も包括的なセグメンテーションデータセットを構築した。
(ii) 建築設計においては, コントラスト学習を通じて医療知識をテキストエンコーダに注入し, テキスト形式で医療用語を入力することにより, 普遍的なセグメンテーションモデルを定式化することを提案する。
その結果、SAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされたnnU-Nets、U-Mamba、SwinUNETRといった72のスペシャリストモデルよりも優れた、あるいは同等のパフォーマンスを示した。
SATを基本セグメンテーションモデルとして検証し、外部(クロスセンター)データセットの一般化を向上し、微調整適応後の特定のタスクでさらに改善することができる。
最先端のインタラクティブセグメンテーションモデルMedSAMと比較すると、SATは優れた性能、スケーラビリティ、堅牢性を示している。
さらに、SATとBiomedParseを比較し、SATが内部および外部の両方でかなり優れていることを観察する。
広範囲にわたるアブレーション研究を通じて、特に尾のカテゴリにおいて、普遍的なセグメンテーションにおけるドメイン知識の利点を検証する。
ユースケースとして、SATが大規模言語モデルのための強力なアウト・オブ・ザ・ボックスエージェントとして機能し、汎用アプリケーションシナリオにおける視覚的グラウンド化を可能にすることを実証する。
この作業のすべてのデータ、コード、モデルがリリースされた。
関連論文リスト
- TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。
22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文 参考訳(メタデータ) (2023-11-22T13:27:36Z) - SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images [35.83393121891959]
ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。
SAM-Med3Dは様々な解剖学的構造と病変を正確に分類することができる。
提案手法は,医療資源を多用した汎用医療AIの開発に活用できることを実証するものである。
論文 参考訳(メタデータ) (2023-10-23T17:57:36Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z) - Few-shot image segmentation for cross-institution male pelvic organs
using registration-assisted prototypical learning [13.567073992605797]
本研究は,医用画像のための最初の3D画像間セグメンテーションネットワークを提案する。
興味のある8つの領域を持つ前立腺がん患者のラベル付き多施設データセットを使用する。
内蔵登録機構は、被験者間の一貫性のある解剖学の事前知識を効果的に活用することができる。
論文 参考訳(メタデータ) (2022-01-17T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。