Fugu-MT 論文翻訳(概要): One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

arxiv url: http://arxiv.org/abs/2312.17183v1
Date: Thu, 28 Dec 2023 18:16:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 14:55:44.554443
Title: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
Title（参考訳）: すべてを支配する一つのモデル:テキストプロンプトによる医用画像のユニバーサルセグメンテーションに向けて
Authors: Ziheng Zhao and Yao Zhang and Chaoyi Wu and Xiaoman Zhang and Ya Zhang and Yanfeng Wang and Weidi Xie
Abstract要約: 本研究は、SATと呼ばれるテキストプロンプトによって駆動される医療シナリオにおけるSegment Anythingを構築できるモデルの構築に焦点を当てる。トレーニング用の大規模なセグメンテーションデータセットを構築し、31のセグメンテーションデータセットから11K以上の3D医療画像スキャンを収集します。本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。
参考スコア（独自算出の注目度）: 65.69028800097225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we focus on building up a model that can Segment Anything in medical scenarios, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) on data construction, we combine multiple knowledge sources to construct a multi-modal medical knowledge tree; Then we build up a large-scale segmentation dataset for training, by collecting over 11K 3D medical image scans from 31 segmentation datasets with careful standardization on both visual scans and label space; (ii) on model training, we formulate a universal segmentation model, that can be prompted by inputting medical terminologies in text form. We present a knowledge-enhanced representation learning framework, and a series of strategies for effectively training on the combination of a large number of datasets; (iii) on model evaluation, we train a SAT-Nano with only 107M parameters, to segment 31 different segmentation datasets with text prompt, resulting in 362 categories. We thoroughly evaluate the model from three aspects: averaged by body regions, averaged by classes, and average by datasets, demonstrating comparable performance to 36 specialist nnUNets, i.e., we train nnUNet models on each dataset/subset, resulting in 36 nnUNets with around 1000M parameters for the 31 datasets. We will release all the codes, and models used in this report, i.e., SAT-Nano. Moreover, we will offer SAT-Ultra in the near future, which is trained with model of larger size, on more diverse datasets. Webpage URL: https://zhaoziheng.github.io/MedUniSeg.
Abstract（参考訳）: 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションのモデルの構築に焦点をあてる。主な貢献は3つあります (i)データ構築において、複数の知識ソースを組み合わせてマルチモーダルな医療知識ツリーを構築する。次いで、31のセグメンテーションデータセットから11K以上の3D画像スキャンを収集し、視覚スキャンとラベル空間の両方を慎重に標準化することにより、トレーニング用の大規模セグメンテーションデータセットを構築する。 (II) モデルトレーニングでは, 医療用語をテキスト形式で入力することで, 普遍的なセグメンテーションモデルを定式化する。本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。 3) モデル評価では,107MパラメータのみのSAT-Nanoをトレーニングし,31種類のセグメンテーションデータセットをテキストプロンプトで分割し,362のカテゴリに分類する。ボディ領域の平均値、クラスの平均値、データセットの平均値の3つの側面からモデルを徹底的に評価し、36のスペシャリストnnunets、すなわち、各データセット/サブセットでnnunetモデルをトレーニングし、31のデータセットに対して約1000mのパラメータを持つ36のnnunetsを生成した。このレポートで使用されるすべてのコードとモデル、すなわちSAT-Nanoをリリースします。さらに近い将来、より多様なデータセットに基づいて、より大きなサイズのモデルでトレーニングされたSAT-Ultraも提供します。 WebページURL: https://zhaoziheng.github.io/MedUniSeg.com

関連論文リスト

MedSAM2: Segment Anything in 3D Medical Images and Videos [16.709180067792538]
本稿では,3次元画像と映像のセグメンテーションのための高速セグメンテーション基盤モデルであるMedSAM2を提案する。このモデルは、Segment Anything Model 2を455,000以上の3Dイメージマスクペアと76,000フレームの大規模な医療データセットで微調整することによって開発されている。さらに、我々は、大規模データセットの作成を容易にするために、5,000個のCT病変、3,984個の肝MRI病変、251,550個の心エコービデオフレームのアノテーションを含む、我々の知る限り、これまでで最も広範なユーザー調査を行った。
論文参考訳（メタデータ） (2025-04-04T17:13:37Z)
A Continual Learning-driven Model for Accurate and Generalizable Segmentation of Clinically Comprehensive and Fine-grained Whole-body Anatomies in CT [67.34586036959793]
完全に注釈付きCTデータセットは存在せず、すべての解剖学がトレーニングのために記述されている。完全解剖を分割できる連続学習駆動CTモデルを提案する。単体CT分割モデルCL-Netは, 臨床的に包括的に包括的に235個の粒状体解剖の集合を高精度に分割することができる。
論文参考訳（メタデータ） (2025-03-16T23:55:02Z)
TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文参考訳（メタデータ） (2024-05-29T20:15:54Z)
Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文参考訳（メタデータ） (2024-05-28T16:55:15Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。 22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文参考訳（メタデータ） (2023-11-22T13:27:36Z)
SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images [35.83393121891959]
ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。 SAM-Med3Dは様々な解剖学的構造と病変を正確に分類することができる。提案手法は,医療資源を多用した汎用医療AIの開発に活用できることを実証するものである。
論文参考訳（メタデータ） (2023-10-23T17:57:36Z)
PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。 LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。 PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文参考訳（メタデータ） (2023-04-27T18:29:05Z)
ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。 Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文参考訳（メタデータ） (2023-03-02T22:36:19Z)
Continual Segment: Towards a Single, Unified and Accessible Continual Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文参考訳（メタデータ） (2023-02-01T00:49:21Z)
CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文参考訳（メタデータ） (2023-01-02T18:07:44Z)
Prototypical few-shot segmentation for cross-institution male pelvic structures with spatial registration [24.089382725904304]
この研究は、完全に3次元のショットセグメンテーションアルゴリズムを記述している。トレーニングされたネットワークは、トレーニングに欠落している臨床的に興味深い構造に効果的に適応することができる。実験は、介入計画において重要な8つの解剖学的構造を分割する応用として提示される。
論文参考訳（メタデータ） (2022-09-12T11:34:57Z)
Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文参考訳（メタデータ） (2022-03-04T02:29:54Z)
Few-shot image segmentation for cross-institution male pelvic organs using registration-assisted prototypical learning [13.567073992605797]
本研究は,医用画像のための最初の3D画像間セグメンテーションネットワークを提案する。興味のある8つの領域を持つ前立腺がん患者のラベル付き多施設データセットを使用する。内蔵登録機構は、被験者間の一貫性のある解剖学の事前知識を効果的に活用することができる。
論文参考訳（メタデータ） (2022-01-17T11:44:10Z)
Learning Contextualized Document Representations for Healthcare Answer Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2020-02-03T15:47:19Z)
VerSe: A Vertebrae Labelling and Segmentation Benchmark for Multi-detector CT Images [121.31355003451152]
大規模Vertebrae Challenge(VerSe)は、2019年と2020年に開催されたMICCAI(International Conference on Medical Image Computing and Computer Assisted Intervention)と共同で設立された。本評価の結果を報告するとともに,脊椎レベル,スキャンレベル,および異なる視野での性能変化について検討した。
論文参考訳（メタデータ） (2020-01-24T21:09:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。