論文の概要: FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis
- arxiv url: http://arxiv.org/abs/2502.14807v1
- Date: Thu, 20 Feb 2025 18:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:41.432137
- Title: FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis
- Title(参考訳): FetalCLIP:胎児超音波画像解析のためのビジュアル言語基礎モデル
- Authors: Fadillah Maani, Numan Saeed, Tausifa Saleem, Zaid Farooq, Hussain Alasmawi, Werner Diehl, Ameera Mohammad, Gareth Waring, Saudabi Valappi, Leanne Bricker, Mohammad Yaqub,
- Abstract要約: FetalCLIPは胎児超音波画像の普遍的な表現を生成できる視覚言語基盤モデルである。
テキストと組み合わせた210,035個の胎児超音波画像から,マルチモーダル・ラーニング・アプローチを用いて事前訓練を行った。
- 参考スコア(独自算出の注目度): 0.676810348604193
- License:
- Abstract: Foundation models are becoming increasingly effective in the medical domain, offering pre-trained models on large datasets that can be readily adapted for downstream tasks. Despite progress, fetal ultrasound images remain a challenging domain for foundation models due to their inherent complexity, often requiring substantial additional training and facing limitations due to the scarcity of paired multimodal data. To overcome these challenges, here we introduce FetalCLIP, a vision-language foundation model capable of generating universal representation of fetal ultrasound images. FetalCLIP was pre-trained using a multimodal learning approach on a diverse dataset of 210,035 fetal ultrasound images paired with text. This represents the largest paired dataset of its kind used for foundation model development to date. This unique training approach allows FetalCLIP to effectively learn the intricate anatomical features present in fetal ultrasound images, resulting in robust representations that can be used for a variety of downstream applications. In extensive benchmarking across a range of key fetal ultrasound applications, including classification, gestational age estimation, congenital heart defect (CHD) detection, and fetal structure segmentation, FetalCLIP outperformed all baselines while demonstrating remarkable generalizability and strong performance even with limited labeled data. We plan to release the FetalCLIP model publicly for the benefit of the broader scientific community.
- Abstract(参考訳): ファンデーションモデルは、ダウンストリームタスクに容易に適応可能な、大規模なデータセットで事前トレーニングされたモデルを提供することによって、医療分野でますます効果的になっています。
進展にもかかわらず、胎児超音波画像は、その固有の複雑さのために基礎モデルにとって困難な領域であり、しばしば、ペア化されたマルチモーダルデータの不足により、かなりの訓練と制限に直面している。
これらの課題を克服するために,胎児超音波画像の普遍的表現を生成可能な視覚言語基盤モデルFetalCLIPを紹介する。
FetalCLIPはテキストと組み合わせた210,035個の胎児超音波画像の多様なデータセットに基づいて,マルチモーダル学習アプローチを用いて事前訓練を行った。
これは、これまでのファンデーションモデル開発で使用されている、同種のペアデータセットとしては最大である。
このユニークなトレーニングアプローチにより、FetalCLIPは胎児超音波画像に存在する複雑な解剖学的特徴を効果的に学習することができる。
分類, 妊娠年齢推定, 先天性心不全(CHD)検出, 胎児構造セグメンテーションなど, 様々な主要胎児超音波応用の広範なベンチマークにおいて, FetalCLIPは, 限られたラベル付きデータであっても, 顕著な一般化性と強い性能を示しながら, 全基線を上回った。
より広い科学コミュニティの利益のために、FetalCLIPモデルを一般公開する予定です。
関連論文リスト
- Text-guided Foundation Model Adaptation for Long-Tailed Medical Image Classification [4.6651139122498]
医学的文脈では、まれな疾患のラベルの少ない長いデータセットにおける不均衡なデータ分布は、ディープラーニングモデルの診断精度を著しく損なう。
最近のマルチモーダルテキスト画像管理基盤モデルは、効率的な表現学習を通じて、データの不足に対する新しい解決策を提供する。
長期医療画像分類のための新しいテキスト誘導基礎モデル適応法(TFA-LT)を提案する。
提案手法は27.1%の精度向上を実現し,本領域における基礎モデル適用の可能性を強調した。
論文 参考訳(メタデータ) (2024-08-27T04:18:18Z) - Generalizing Medical Image Representations via Quaternion Wavelet Networks [9.836302410524842]
医用画像から健全な特徴を抽出できる,新しい,一般化可能な,データに依存しないフレームワークを提案する。
提案する4元ウェーブレットネットワーク(quaVE)は,既存の医用画像解析や合成作業と容易に統合できる。
論文 参考訳(メタデータ) (2023-10-16T09:34:06Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Towards Realistic Ultrasound Fetal Brain Imaging Synthesis [0.7315240103690552]
臨床データ不足、患者のプライバシ、一般的には異常の稀な発生、データ収集と検証の専門家の限られたため、一般の超音波胎児画像データセットはほとんどない。
このようなデータ不足に対処するため、私たちは1つのパブリックデータセットから胎児の超音波脳面の画像を生成するために、GAN(Generative Adversarial Network)ベースのモデル、拡散超解像-GANとトランスフォーマーベース-GANを提案した。
論文 参考訳(メタデータ) (2023-04-08T07:07:20Z) - FPUS23: An Ultrasound Fetus Phantom Dataset with Deep Neural Network
Evaluations for Fetus Orientations, Fetal Planes, and Anatomical Features [10.404128105946583]
胎児の生体計測値を推定するための適切な診断平面を同定するために,新しい胎児ファントム超音波データセットFPUS23を提案する。
データセット全体は15,728の画像で構成され、4つの異なるディープニューラルネットワークモデルをトレーニングするために使用される。
また、FPUS23データセットを用いてトレーニングしたモデルを評価し、これらのモデルによって得られた情報を実世界の超音波胎児データセットの精度を大幅に向上させることができることを示した。
論文 参考訳(メタデータ) (2023-03-14T12:46:48Z) - Generating and Weighting Semantically Consistent Sample Pairs for
Ultrasound Contrastive Learning [10.631361618707214]
よく注釈付けされた医療データセットにより、ディープニューラルネットワーク(DNN)は、病変に関連する特徴を抽出する上で強力なパワーを得ることができる。
ImageNetに基づくモデル事前トレーニングは、データ量に制限がある場合に、より良い一般化を得るための一般的なプラクティスである。
本研究では,医療用USアプリケーションの領域ギャップを低減するために,ImageNetの代わりに超音波(US)ドメインを事前訓練する。
論文 参考訳(メタデータ) (2022-12-08T06:24:08Z) - Ultrasound Signal Processing: From Models to Deep Learning [64.56774869055826]
医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
比較的新しいパラダイムは、データ駆動型ディープラーニングの活用とドメイン知識の活用という2つのパワーを組み合わせたものだ。
論文 参考訳(メタデータ) (2022-04-09T13:04:36Z) - FetReg: Placental Vessel Segmentation and Registration in Fetoscopy
Challenge Dataset [57.30136148318641]
Fetoscopy Laser Photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療に広く用いられている治療法である
これにより、プロシージャ時間と不完全アブレーションが増加し、持続的なTTTSが生じる可能性がある。
コンピュータ支援による介入は、ビデオモザイクによって胎児の視野を広げ、船体ネットワークのより良い視覚化を提供することによって、これらの課題を克服するのに役立つかもしれない。
本稿では,長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした,胎児環境のための汎用的でロバストなセマンティックセマンティックセグメンテーションとビデオモザイクアルゴリズムを開発するための大規模マルチセントデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:14:27Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。