論文の概要: FluoroSAM: A Language-aligned Foundation Model for X-ray Image Segmentation
- arxiv url: http://arxiv.org/abs/2403.08059v2
- Date: Thu, 28 Mar 2024 00:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:33:12.807491
- Title: FluoroSAM: A Language-aligned Foundation Model for X-ray Image Segmentation
- Title(参考訳): FluoroSAM: X線画像分割のための言語対応基盤モデル
- Authors: Benjamin D. Killeen, Liam J. Wang, Han Zhang, Mehran Armand, Russell H. Taylor, Dave Dreizin, Greg Osgood, Mathias Unberath,
- Abstract要約: 我々は、1.6Mの合成X線画像に基づいて、ゼロから訓練されたセグメンテーション・アニーシング・モデルの言語対応版であるFluoroSAMを開発した。
FluoroSAMは0.51と0.79のDICEでテキストのみのプロンプトに基づいて骨質の解剖学的構造を分割することができる。
また、言語アライメントのおかげで、トレーニングセット以外のセグメントクラスへのゼロショットの一般化も可能である。
- 参考スコア(独自算出の注目度): 11.55858990545478
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated X-ray image segmentation would accelerate research and development in diagnostic and interventional precision medicine. Prior efforts have contributed task-specific models capable of solving specific image analysis problems, but the utility of these models is restricted to their particular task domain, and expanding to broader use requires additional data, labels, and retraining efforts. Recently, foundation models (FMs) -- machine learning models trained on large amounts of highly variable data thus enabling broad applicability -- have emerged as promising tools for automated image analysis. Existing FMs for medical image analysis focus on scenarios and modalities where objects are clearly defined by visually apparent boundaries, such as surgical tool segmentation in endoscopy. X-ray imaging, by contrast, does not generally offer such clearly delineated boundaries or structure priors. During X-ray image formation, complex 3D structures are projected in transmission onto the imaging plane, resulting in overlapping features of varying opacity and shape. To pave the way toward an FM for comprehensive and automated analysis of arbitrary medical X-ray images, we develop FluoroSAM, a language-aligned variant of the Segment-Anything Model, trained from scratch on 1.6M synthetic X-ray images. FluoroSAM is trained on data including masks for 128 organ types and 464 non-anatomical objects, such as tools and implants. In real X-ray images of cadaveric specimens, FluoroSAM is able to segment bony anatomical structures based on text-only prompting with 0.51 and 0.79 DICE with point-based refinement, outperforming competing SAM variants for all structures. FluoroSAM is also capable of zero-shot generalization to segmenting classes beyond the training set thanks to its language alignment, which we demonstrate for full lung segmentation on real chest X-rays.
- Abstract(参考訳): 自動X線画像分割は、診断および介入精度医学の研究と開発を加速する。
それまでの取り組みは、特定の画像分析問題を解決するタスク固有のモデルに貢献してきたが、これらのモデルの実用性は特定のタスク領域に限定されており、より広範囲に使用するためには、追加のデータ、ラベル、再訓練が必要である。
近年、大量の高可変データに基づいてトレーニングされた機械学習モデルであるファンデーションモデル(FM)が、自動画像解析のための有望なツールとして登場した。
医用画像解析のための既存のFMは、内視鏡における外科的ツールセグメンテーションのような視覚的に明らかな境界によって、オブジェクトが明確に定義されるシナリオとモダリティに焦点を当てている。
対照的に、X線イメージングは一般的にそのような明確な境界線や構造を提示しない。
X線画像形成において、複雑な3D構造が撮像面に投影され、不透明度と形状の重なり合いが生じる。
任意の医療用X線画像の包括的かつ自動解析を行うためのFMへの道を開くために,1.6Mの合成X線画像に対してゼロから訓練したセグメント・アニーシング・モデルの言語対応版であるFluoroSAMを開発した。
FluoroSAMは128種類の臓器と464の非解剖学的物体(ツールやインプラントなど)のマスクを含むデータに基づいて訓練されている。
実際のカダベリック標本のX線画像では、FluoroSAMはテキストのみのプロンプトで0.51と0.79のDICEで、全ての構造に対して競合するSAM変異よりも優れている。
FluoroSAMはまた、言語アライメントのおかげでトレーニングセット以外のセグメンテーションクラスへのゼロショットの一般化も可能であり、実際の胸部X線で肺の完全なセグメンテーションを実証する。
関連論文リスト
- MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation [2.2585213273821716]
本稿では,CLIPモデルとSAMモデルを組み合わせて臨床スキャンのセグメンテーションを生成する新しいフレームワーク MedCLIP-SAM を提案する。
3つの多様なセグメンテーションタスクと医用画像モダリティを広範囲にテストすることにより、提案手法は優れた精度を示した。
論文 参考訳(メタデータ) (2024-03-29T15:59:11Z) - Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image
Segmentation [10.946806607643689]
Segment Anything Model (SAM) は、自然画像セグメンテーションの革命的進歩を導入した強力な基礎モデルである。
本研究では,SAMのイメージ毎に複数のプロンプトをバンドルして処理する機能を活用した,新しい微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:05:00Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - Introducing Shape Prior Module in Diffusion Model for Medical Image
Segmentation [7.7545714516743045]
拡散確率モデル(DDPM)を利用したVerseDiff-UNetというエンドツーエンドフレームワークを提案する。
我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。
本手法はX線画像から得られた脊椎画像の1つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-12T03:05:00Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Orientation-Shared Convolution Representation for CT Metal Artifact
Learning [63.67718355820655]
X線CT(CT)スキャン中、患者を乗せた金属インプラントは、しばしば有害なアーティファクトに繋がる。
既存のディープラーニングベースの手法は、有望な再構築性能を得た。
本稿では,人工物の物理的事前構造に適応するために,配向型畳み込み表現戦略を提案する。
論文 参考訳(メタデータ) (2022-12-26T13:56:12Z) - Improving Chest X-Ray Classification by RNN-based Patient Monitoring [0.34998703934432673]
我々は、診断に関する情報がCNNに基づく画像分類モデルを改善する方法について分析する。
追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-28T11:47:15Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - SAM: Self-supervised Learning of Pixel-wise Anatomical Embeddings in
Radiological Images [23.582516309813425]
自己監督型解剖学的eMbedding(SAM)を導入し,ラベルのない画像から本質的な構造を学習する。
SAMは、解剖学的位置または身体部分を記述する各画像ピクセルに対してセマンティック埋め込みを生成する。
2次元および3次元画像モダリティを持つ複数のタスクにおいてSAMの有効性を示す。
論文 参考訳(メタデータ) (2020-12-04T03:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。