Fugu-MT 論文翻訳(概要): One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

論文の概要: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

arxiv url: http://arxiv.org/abs/2312.17183v3
Date: Thu, 11 Jul 2024 06:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 23:27:37.536006
Title: One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts
Title（参考訳）: 全てを規定する1つのモデル:テキストプロンプトを用いた医用画像のユニバーサルセグメンテーションを目指して
Authors: Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie,
Abstract要約: 我々は、SATと呼ばれるテキストプロンプトによって駆動される放射線学的スキャンにおいて、任意のセグメンテーションを可能にするモデルを構築することを目指している。トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。我々はSAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
参考スコア（独自算出の注目度）: 62.55349777609194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we aim to build up a model that can Segment Anything in radiology scans, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) for dataset construction, we construct the first multi-modal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then we build up the largest and most comprehensive segmentation dataset for training, by collecting over 22K 3D medical image scans from 72 segmentation datasets, across 497 classes, with careful standardization on both image scans and label space; (ii) for architecture design, we propose to inject medical knowledge into a text encoder via contrastive learning, and then formulate a universal segmentation model, that can be prompted by feeding in medical terminologies in text form; (iii) As a result, we have trained SAT-Nano (110M parameters) and SAT-Pro (447M parameters), demonstrating comparable performance to 72 specialist nnU-Nets trained on each dataset/subsets. We validate SAT as a foundational segmentation model, with better generalization ability on external (unseen) datasets, and can be further improved on specific tasks after fine-tuning adaptation. Comparing with interactive segmentation model, for example, MedSAM, segmentation model prompted by text enables superior performance, scalability and robustness. As a use case, we demonstrate that SAT can act as a powerful out-of-the-box agent for large language models, enabling visual grounding in clinical procedures such as report generation. All the data, codes, and models in this work have been released.
Abstract（参考訳）: 本研究では,SATと呼ばれるテキストプロンプトを駆動する放射線学スキャンにおいて,任意のセグメンテーションを生成できるモデルを構築することを目的とする。主なコントリビューションは3つあります。そして,72のセグメンテーションデータセットから22K以上の3D画像スキャンを,497のクラスにわたって収集し,画像スキャンとラベル空間の両方を慎重に標準化することで,トレーニングのための最大かつ最も包括的なセグメンテーションデータセットを構築した。 (ii) 建築設計においては, コントラスト学習を通じて医療知識をテキストエンコーダに注入し, テキスト形式で医療用語を入力することにより, 普遍的なセグメンテーションモデルを定式化することを提案する。その結果、SAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。 SATを基本セグメント化モデルとして検証し、外部(見えない)データセットの一般化能力を向上し、微調整適応後の特定のタスクでさらに改善することができる。 MedSAMのようなインタラクティブなセグメンテーションモデルと比較して、テキストによって引き起こされるセグメンテーションモデルは、優れたパフォーマンス、スケーラビリティ、堅牢性を実現する。症例として,SATは大規模言語モデルのための強力なアウト・オブ・ザ・ボックスエージェントとして機能し,報告生成などの臨床手順における視覚的基盤化を可能にした。この作業のすべてのデータ、コード、モデルがリリースされた。

関連論文リスト

Medal S: Spatio-Textual Prompt Model for Medical Segmentation [19.872612663709656]
Medal Sは、エンドツーエンドのトレーニング可能なフレームワーク内で、ネイティブ解像度の空間プロンプトとテキストプロンプトをサポートする。複数のネイティブ解像度マスクを並列に処理し、マルチクラスのセグメンテーション性能を向上させる。軽量な3D畳み込みモジュールは、両方のプロンプト型によってガイドされる正確なボクセル空間の洗練を可能にする。
論文参考訳（メタデータ） (2025-11-17T05:44:19Z)
Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data [62.63749675817477]
AbdomenAtlas 2.0は10,135個のCTスキャンのデータセットで、6つの臓器に手動で注釈付けされた1ボクセルあたり15,130個の腫瘍例が記録されている。公開データセットよりも顕著な改善が達成され、DSCテストは+7%、配布外テストは+16%向上した。
論文参考訳（メタデータ） (2025-10-16T16:08:09Z)
ENSAM: an efficient foundation model for interactive segmentation of 3D medical images [0.0]
ENSAMは、普遍的な3次元医用画像セグメンテーションのためのプロンプト可能なモデルである。 ENSAMは、限られたデータと計算予算の下で優れた性能を達成するように設計されている。 ENSAMは, マルチモーダル3次元医用画像を用いた隠れテストセットで評価した。
論文参考訳（メタデータ） (2025-09-19T11:20:22Z)
MedSAM2: Segment Anything in 3D Medical Images and Videos [16.709180067792538]
本稿では,3次元画像と映像のセグメンテーションのための高速セグメンテーション基盤モデルであるMedSAM2を提案する。このモデルは、Segment Anything Model 2を455,000以上の3Dイメージマスクペアと76,000フレームの大規模な医療データセットで微調整することによって開発されている。さらに、我々は、大規模データセットの作成を容易にするために、5,000個のCT病変、3,984個の肝MRI病変、251,550個の心エコービデオフレームのアノテーションを含む、我々の知る限り、これまでで最も広範なユーザー調査を行った。
論文参考訳（メタデータ） (2025-04-04T17:13:37Z)
A Continual Learning-driven Model for Accurate and Generalizable Segmentation of Clinically Comprehensive and Fine-grained Whole-body Anatomies in CT [67.34586036959793]
完全に注釈付きCTデータセットは存在せず、すべての解剖学がトレーニングのために記述されている。完全解剖を分割できる連続学習駆動CTモデルを提案する。単体CT分割モデルCL-Netは, 臨床的に包括的に包括的に235個の粒状体解剖の集合を高精度に分割することができる。
論文参考訳（メタデータ） (2025-03-16T23:55:02Z)
TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文参考訳（メタデータ） (2024-05-29T20:15:54Z)
Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文参考訳（メタデータ） (2024-05-28T16:55:15Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
SegVol: Universal and Interactive Volumetric Medical Image Segmentation [25.322437534713163]
本稿では,汎用的,インタラクティブな医用画像セグメンテーションを支援する3D基盤セグメンテーションモデルSegVolを提案する。トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは200以上の解剖学的カテゴリのセグメンテーションをサポートする。 22の解剖学的セグメンテーションタスクの実験では、SegVolは19のタスクで競合より優れており、ランナアップメソッドと比較して37.24%改善されている。
論文参考訳（メタデータ） (2023-11-22T13:27:36Z)
SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images [35.83393121891959]
ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。 SAM-Med3Dは様々な解剖学的構造と病変を正確に分類することができる。提案手法は,医療資源を多用した汎用医療AIの開発に活用できることを実証するものである。
論文参考訳（メタデータ） (2023-10-23T17:57:36Z)
PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。 LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。 PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文参考訳（メタデータ） (2023-04-27T18:29:05Z)
ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。 Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文参考訳（メタデータ） (2023-03-02T22:36:19Z)
Continual Segment: Towards a Single, Unified and Accessible Continual Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文参考訳（メタデータ） (2023-02-01T00:49:21Z)
CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文参考訳（メタデータ） (2023-01-02T18:07:44Z)
Prototypical few-shot segmentation for cross-institution male pelvic structures with spatial registration [24.089382725904304]
この研究は、完全に3次元のショットセグメンテーションアルゴリズムを記述している。トレーニングされたネットワークは、トレーニングに欠落している臨床的に興味深い構造に効果的に適応することができる。実験は、介入計画において重要な8つの解剖学的構造を分割する応用として提示される。
論文参考訳（メタデータ） (2022-09-12T11:34:57Z)
Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文参考訳（メタデータ） (2022-03-04T02:29:54Z)
Few-shot image segmentation for cross-institution male pelvic organs using registration-assisted prototypical learning [13.567073992605797]
本研究は,医用画像のための最初の3D画像間セグメンテーションネットワークを提案する。興味のある8つの領域を持つ前立腺がん患者のラベル付き多施設データセットを使用する。内蔵登録機構は、被験者間の一貫性のある解剖学の事前知識を効果的に活用することができる。
論文参考訳（メタデータ） (2022-01-17T11:44:10Z)
Learning Contextualized Document Representations for Healthcare Answer Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2020-02-03T15:47:19Z)
VerSe: A Vertebrae Labelling and Segmentation Benchmark for Multi-detector CT Images [121.31355003451152]
大規模Vertebrae Challenge(VerSe)は、2019年と2020年に開催されたMICCAI(International Conference on Medical Image Computing and Computer Assisted Intervention)と共同で設立された。本評価の結果を報告するとともに,脊椎レベル,スキャンレベル,および異なる視野での性能変化について検討した。
論文参考訳（メタデータ） (2020-01-24T21:09:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。