論文の概要: Large-Vocabulary Segmentation for Medical Images with Text Prompts
- arxiv url: http://arxiv.org/abs/2312.17183v5
- Date: Fri, 18 Jul 2025 10:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 14:37:14.495598
- Title: Large-Vocabulary Segmentation for Medical Images with Text Prompts
- Title(参考訳): テキストプロンプトを用いた医用画像の大語彙セグメンテーション
- Authors: Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Xiao Zhou, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニング用の最大かつ最も包括的なセグメンテーションデータセットを構築し、72データセットから22K以上の3Dスキャンを収集します。
- 参考スコア(独自算出の注目度): 68.9193694019039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to build a model that can Segment Anything in 3D medical images, driven by medical terminologies as Text prompts, termed as SAT. Our main contributions are three-fold: (i) We construct the first multimodal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then, we build the largest and most comprehensive segmentation dataset for training, collecting over 22K 3D scans from 72 datasets, across 497 classes, with careful standardization on both image and label space; (ii) We propose to inject medical knowledge into a text encoder via contrastive learning and formulate a large-vocabulary segmentation model that can be prompted by medical terminologies in text form; (iii) We train SAT-Nano (110M parameters) and SAT-Pro (447M parameters). SAT-Pro achieves comparable performance to 72 nnU-Nets -- the strongest specialist models trained on each dataset (over 2.2B parameters combined) -- over 497 categories. Compared with the interactive approach MedSAM, SAT-Pro consistently outperforms across all 7 human body regions with +7.1% average Dice Similarity Coefficient (DSC) improvement, while showing enhanced scalability and robustness. On 2 external (cross-center) datasets, SAT-Pro achieves higher performance than all baselines (+3.7% average DSC), demonstrating superior generalization ability.
- Abstract(参考訳): 本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
私たちの主な貢献は3倍です。
i) 解剖学的用語6502を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築し,72データセットから22K以上の3Dスキャンを497クラスにわたって収集し,画像空間とラベル空間の両方を慎重に標準化し,トレーニングのための最大かつ最も包括的なセグメンテーションデータセットを構築した。
二 医学的知識をコントラスト学習によりテキストエンコーダに注入し、医学用語によってテキスト形式で誘導できる大語彙セグメンテーションモデルを定式化することを提案する。
3)SAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)を訓練する。
SAT-Proは、72 nnU-Nets -- データセットでトレーニングされた(2.2Bパラメータを組み合わせた)最強のスペシャリストモデル -- に匹敵するパフォーマンスを、497のカテゴリで達成している。
インタラクティブなアプローチであるMedSAMと比較すると、SAT-Proは、拡張されたスケーラビリティと堅牢性を示しながら、平均的なDice similarity Coefficient (DSC)の改善により、7つの人体領域で一貫してパフォーマンスが向上している。
2つの外部(クロスセンター)データセットでは、SAT-Proはすべてのベースライン(平均DSCは+3.7%)よりも高いパフォーマンスを実現し、より優れた一般化能力を示している。
関連論文リスト
- MedSAM2: Segment Anything in 3D Medical Images and Videos [16.709180067792538]
本稿では,3次元画像と映像のセグメンテーションのための高速セグメンテーション基盤モデルであるMedSAM2を提案する。
このモデルは、Segment Anything Model 2を455,000以上の3Dイメージマスクペアと76,000フレームの大規模な医療データセットで微調整することによって開発されている。
さらに、我々は、大規模データセットの作成を容易にするために、5,000個のCT病変、3,984個の肝MRI病変、251,550個の心エコービデオフレームのアノテーションを含む、我々の知る限り、これまでで最も広範なユーザー調査を行った。
論文 参考訳(メタデータ) (2025-04-04T17:13:37Z) - A Continual Learning-driven Model for Accurate and Generalizable Segmentation of Clinically Comprehensive and Fine-grained Whole-body Anatomies in CT [67.34586036959793]
完全に注釈付きCTデータセットは存在せず、すべての解剖学がトレーニングのために記述されている。
完全解剖を分割できる連続学習駆動CTモデルを提案する。
単体CT分割モデルCL-Netは, 臨床的に包括的に包括的に235個の粒状体解剖の集合を高精度に分割することができる。
論文 参考訳(メタデータ) (2025-03-16T23:55:02Z) - TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。
22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文 参考訳(メタデータ) (2023-11-22T13:27:36Z) - SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images [35.83393121891959]
ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。
SAM-Med3Dは様々な解剖学的構造と病変を正確に分類することができる。
提案手法は,医療資源を多用した汎用医療AIの開発に活用できることを実証するものである。
論文 参考訳(メタデータ) (2023-10-23T17:57:36Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Continual Segment: Towards a Single, Unified and Accessible Continual
Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。
私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文 参考訳(メタデータ) (2023-02-01T00:49:21Z) - CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。
提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文 参考訳(メタデータ) (2023-01-02T18:07:44Z) - Prototypical few-shot segmentation for cross-institution male pelvic
structures with spatial registration [24.089382725904304]
この研究は、完全に3次元のショットセグメンテーションアルゴリズムを記述している。
トレーニングされたネットワークは、トレーニングに欠落している臨床的に興味深い構造に効果的に適応することができる。
実験は、介入計画において重要な8つの解剖学的構造を分割する応用として提示される。
論文 参考訳(メタデータ) (2022-09-12T11:34:57Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z) - Few-shot image segmentation for cross-institution male pelvic organs
using registration-assisted prototypical learning [13.567073992605797]
本研究は,医用画像のための最初の3D画像間セグメンテーションネットワークを提案する。
興味のある8つの領域を持つ前立腺がん患者のラベル付き多施設データセットを使用する。
内蔵登録機構は、被験者間の一貫性のある解剖学の事前知識を効果的に活用することができる。
論文 参考訳(メタデータ) (2022-01-17T11:44:10Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - VerSe: A Vertebrae Labelling and Segmentation Benchmark for
Multi-detector CT Images [121.31355003451152]
大規模Vertebrae Challenge(VerSe)は、2019年と2020年に開催されたMICCAI(International Conference on Medical Image Computing and Computer Assisted Intervention)と共同で設立された。
本評価の結果を報告するとともに,脊椎レベル,スキャンレベル,および異なる視野での性能変化について検討した。
論文 参考訳(メタデータ) (2020-01-24T21:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。