論文の概要: FluoroSAM: A Language-promptable Foundation Model for Flexible X-ray Image Segmentation
- arxiv url: http://arxiv.org/abs/2403.08059v3
- Date: Wed, 25 Jun 2025 16:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.400663
- Title: FluoroSAM: A Language-promptable Foundation Model for Flexible X-ray Image Segmentation
- Title(参考訳): FluoroSAM: 柔軟なX線画像セグメンテーションのための言語プロンプタブル基礎モデル
- Authors: Benjamin D. Killeen, Liam J. Wang, Blanca Inigo, Han Zhang, Mehran Armand, Russell H. Taylor, Greg Osgood, Mathias Unberath,
- Abstract要約: FluoroSAMはSegment Anything Modelの言語プロンプト可能なバージョンである。
自然言語のプロンプトに基づいて、無数の解剖学的構造とツールをセグメント化することができる。
我々は,X線画像の取得と解析の文脈において,FluoroSAMがリッチな人間と機械の相互作用の鍵となる方法を示す。
- 参考スコア(独自算出の注目度): 11.55858990545478
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language promptable X-ray image segmentation would enable greater flexibility for human-in-the-loop workflows in diagnostic and interventional precision medicine. Prior efforts have contributed task-specific models capable of solving problems within a narrow scope, but expanding to broader use requires additional data, annotations, and training time. Recently, language-aligned foundation models (LFMs) -- machine learning models trained on large amounts of highly variable image and text data thus enabling broad applicability -- have emerged as promising tools for automated image analysis. Existing foundation models for medical image analysis focus on scenarios and modalities where large, richly annotated datasets are available. However, the X-ray imaging modality features highly variable image appearance and applications, from diagnostic chest X-rays to interventional fluoroscopy, with varying availability of data. To pave the way toward an LFM for comprehensive and language-aligned analysis of arbitrary medical X-ray images, we introduce FluoroSAM, a language-promptable variant of the Segment Anything Model, trained from scratch on 3M synthetic X-ray images from a wide variety of human anatomies, imaging geometries, and viewing angles. These include pseudo-ground truth masks for 128 organ types and 464 tools with associated text descriptions. FluoroSAM is capable of segmenting myriad anatomical structures and tools based on natural language prompts, thanks to the novel incorporation of vector quantization (VQ) of text embeddings in the training process. We demonstrate FluoroSAM's performance quantitatively on real X-ray images and showcase on several applications how FluoroSAM is a key enabler for rich human-machine interaction in the X-ray image acquisition and analysis context. Code is available at https://github.com/arcadelab/fluorosam.
- Abstract(参考訳): 言語アクセラブルなX線画像セグメント化により、診断および介入精度の医療において、ループ内ワークフローの柔軟性が向上する。
それまでの取り組みは、狭い範囲内で問題を解決することができるタスク固有のモデルに貢献してきたが、より広範囲に使用するためには、追加のデータ、アノテーション、トレーニング時間が必要である。
最近、言語整合基盤モデル(LFMs) -- 大量の高可変画像とテキストデータに基づいてトレーニングされた機械学習モデル -- が、自動イメージ分析のための有望なツールとして登場した。
既存の医用画像解析の基礎モデルは、大規模でリッチな注釈付きデータセットが利用できるシナリオとモダリティに焦点を当てている。
しかし、X線画像のモダリティは、診断用胸部X線から干渉蛍光顕微鏡まで、画像の外観や用途が多様であり、データの可用性も様々である。
任意の医療用X線画像の包括的かつ言語的に整合した解析を行うための LFM への道を開くために, 様々な人間の解剖学, 画像測地, 視角から3M の合成 X線画像にスクラッチから訓練した, セグメント・エキシング・モデルの言語予測可能な変種である FluoroSAM を紹介した。
これには128種類のオルガンと、関連するテキスト記述を備えた464のツールのための擬似地上真実マスクが含まれる。
FluoroSAMは、訓練プロセスに埋め込まれたテキストのベクトル量子化(VQ)を新たに組み込んだことで、自然言語のプロンプトに基づいて、無数の解剖学的構造とツールをセグメント化することができる。
実X線画像に対してFluoroSAMの性能を定量的に示すとともに、FluoroSAMがX線画像の取得と解析の文脈において、リッチな人間と機械の相互作用を実現する重要な手段であることを示す。
コードはhttps://github.com/arcadelab/fluorosam.comで入手できる。
関連論文リスト
- PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation [2.2585213273821716]
本稿では,CLIPモデルとSAMモデルを組み合わせて臨床スキャンのセグメンテーションを生成する新しいフレームワーク MedCLIP-SAM を提案する。
3つの多様なセグメンテーションタスクと医用画像モダリティを広範囲にテストすることにより、提案手法は優れた精度を示した。
論文 参考訳(メタデータ) (2024-03-29T15:59:11Z) - Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image
Segmentation [10.946806607643689]
Segment Anything Model (SAM) は、自然画像セグメンテーションの革命的進歩を導入した強力な基礎モデルである。
本研究では,SAMのイメージ毎に複数のプロンプトをバンドルして処理する機能を活用した,新しい微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:05:00Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - Introducing Shape Prior Module in Diffusion Model for Medical Image
Segmentation [7.7545714516743045]
拡散確率モデル(DDPM)を利用したVerseDiff-UNetというエンドツーエンドフレームワークを提案する。
我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。
本手法はX線画像から得られた脊椎画像の1つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-12T03:05:00Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Orientation-Shared Convolution Representation for CT Metal Artifact
Learning [63.67718355820655]
X線CT(CT)スキャン中、患者を乗せた金属インプラントは、しばしば有害なアーティファクトに繋がる。
既存のディープラーニングベースの手法は、有望な再構築性能を得た。
本稿では,人工物の物理的事前構造に適応するために,配向型畳み込み表現戦略を提案する。
論文 参考訳(メタデータ) (2022-12-26T13:56:12Z) - Improving Chest X-Ray Classification by RNN-based Patient Monitoring [0.34998703934432673]
我々は、診断に関する情報がCNNに基づく画像分類モデルを改善する方法について分析する。
追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-28T11:47:15Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - SAM: Self-supervised Learning of Pixel-wise Anatomical Embeddings in
Radiological Images [23.582516309813425]
自己監督型解剖学的eMbedding(SAM)を導入し,ラベルのない画像から本質的な構造を学習する。
SAMは、解剖学的位置または身体部分を記述する各画像ピクセルに対してセマンティック埋め込みを生成する。
2次元および3次元画像モダリティを持つ複数のタスクにおいてSAMの有効性を示す。
論文 参考訳(メタデータ) (2020-12-04T03:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。