論文の概要: Merlin: A Vision Language Foundation Model for 3D Computed Tomography
- arxiv url: http://arxiv.org/abs/2406.06512v1
- Date: Mon, 10 Jun 2024 17:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:39:47.939130
- Title: Merlin: A Vision Language Foundation Model for 3D Computed Tomography
- Title(参考訳): Merlin: 3次元CTのためのビジョン言語基礎モデル
- Authors: Louis Blankemeier, Joseph Paul Cohen, Ashwin Kumar, Dave Van Veen, Syed Jamal Safdar Gardezi, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Cesar Truyts, Christian Bluethgen, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari,
- Abstract要約: アメリカでは毎年8500万以上のCTスキャンが行われており、そのうち約4分の1が腹部に焦点を当てている。
複雑な画像研究の解釈の負担を軽減するために、人工知能を使うことには大きな意味がある。
我々はMerlinについて紹介する。この3D VLMは、ペアCTスキャン、EHR診断コード、放射線診断レポートを用いて訓練する。
- 参考スコア(独自算出の注目度): 23.553846980246302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over 85 million computed tomography (CT) scans are performed annually in the US, of which approximately one quarter focus on the abdomen. Given the current radiologist shortage, there is a large impetus to use artificial intelligence to alleviate the burden of interpreting these complex imaging studies. Prior state-of-the-art approaches for automated medical image interpretation leverage vision language models (VLMs). However, current medical VLMs are generally limited to 2D images and short reports, and do not leverage electronic health record (EHR) data for supervision. We introduce Merlin - a 3D VLM that we train using paired CT scans (6+ million images from 15,331 CTs), EHR diagnosis codes (1.8+ million codes), and radiology reports (6+ million tokens). We evaluate Merlin on 6 task types and 752 individual tasks. The non-adapted (off-the-shelf) tasks include zero-shot findings classification (31 findings), phenotype classification (692 phenotypes), and zero-shot cross-modal retrieval (image to findings and image to impressions), while model adapted tasks include 5-year disease prediction (6 diseases), radiology report generation, and 3D semantic segmentation (20 organs). We perform internal validation on a test set of 5,137 CTs, and external validation on 7,000 clinical CTs and on two public CT datasets (VerSe, TotalSegmentator). Beyond these clinically-relevant evaluations, we assess the efficacy of various network architectures and training strategies to depict that Merlin has favorable performance to existing task-specific baselines. We derive data scaling laws to empirically assess training data needs for requisite downstream task performance. Furthermore, unlike conventional VLMs that require hundreds of GPUs for training, we perform all training on a single GPU.
- Abstract(参考訳): アメリカでは毎年8500万以上のCTスキャンが行われており、そのうち約4分の1が腹部に焦点を当てている。
現在の放射線科医の不足を考えると、これらの複雑な画像研究の解釈の負担を軽減するために人工知能を使用するには大きな意味がある。
医用画像の自動解釈における最先端のアプローチは視覚言語モデル(VLM)を利用する。
しかしながら、現在の医療用VLMは一般的に2D画像と短い報告に限られており、電子健康記録(EHR)データを監督に利用していない。
Merlin - ペアCTスキャン(15,331個のCTから6百万枚以上の画像)、EHR診断コード(1.8万枚以上のコード)、放射線診断レポート(6百万枚以上のトークン)を使ってトレーニングする3D VLM。
我々はMerlinを6つのタスクタイプと752の個別タスクで評価する。
非適応型(オフザシェルフ)タスクには、ゼロショット発見分類(31の発見)、表現型分類(692の表現型)、ゼロショットクロスモーダル検索(画像、画像、印象)、モデル適応タスクには、5年間の疾患予測(6の病気)、放射線診断レポート生成、3Dセマンティックセマンティックセグメンテーション(20の臓器)が含まれる。
我々は,5,137個のCT検査セットの内的検証を行い,7000個の臨床CTと2つの公開CTデータセット(VerSe, TotalSegmentator)の外部的検証を行った。
これらの臨床的評価以外にも,様々なネットワークアーキテクチャの有効性を評価し,Merlinが既存のタスク固有のベースラインに好適な性能を持つことを示す。
我々はデータスケーリング法則を導出し、下流のタスクパフォーマンスに必要なトレーニングデータの必要性を実証的に評価する。
さらに、トレーニングに数百のGPUを必要とする従来のVLMとは異なり、1つのGPUですべてのトレーニングを実行する。
関連論文リスト
- MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks [6.8948885302235325]
本稿では,入力医療画像と自然事前学習型視覚モデルとのギャップを埋めるために視覚刺激(VP)を導入する。
本稿では,分類損失と差分損失を含む共同学習損失関数を設計し,インパルス画像とプレーン画像のばらつきを記述した。
分布医学データセットの内訳では,本手法(90.33%)はFF(85.15%)を5.18%リードで上回りうる。
論文 参考訳(メタデータ) (2024-05-13T01:18:25Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Significantly improving zero-shot X-ray pathology classification via
fine-tuning pre-trained image-text encoders [51.14431540035141]
下流のゼロショット病理分類性能を改善するために,文サンプリングと正対損失緩和に基づく新たな微調整手法を提案する。
4種類の胸部X線データセットを用いてゼロショット病理分類性能を劇的に改善した。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - A Novel Automated Classification and Segmentation for COVID-19 using 3D
CT Scans [5.5957919486531935]
新型コロナウイルス(COVID-19)による肺のCT画像では、地上ガラスの濁度が専門的な診断を必要とする最も一般的な発見である。
一部の研究者は、専門知識の欠如による専門的診断専門医の代替となる、関連するDLモデルを提案する。
肺病変の分類では, 新型コロナウイルス, 肺炎, 正常の3種類で94.52%の精度が得られた。
論文 参考訳(メタデータ) (2022-08-04T22:14:18Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - COVID-19 identification from volumetric chest CT scans using a
progressively resized 3D-CNN incorporating segmentation, augmentation, and
class-rebalancing [4.446085353384894]
新型コロナウイルスは世界的なパンデミックの流行だ。
高い感度のコンピュータ支援スクリーニングツールは、疾患の診断と予後に不可欠である。
本稿では,3次元畳み込みニューラルネットワーク(CNN)に基づく分類手法を提案する。
論文 参考訳(メタデータ) (2021-02-11T18:16:18Z) - Volumetric Attention for 3D Medical Image Segmentation and Detection [53.041572035020344]
3次元医用画像のセグメンテーションと検出のためのボリュームアテンション(VA)モジュールを提案する。
VAアテンションはビデオ処理の最近の進歩にインスパイアされ、2.5Dネットワークはz方向のコンテキスト情報を活用することができる。
そのMask R-CNNへの統合は、肝腫瘍(LiTS)チャレンジにおける最先端のパフォーマンスを可能にすることが示されている。
論文 参考訳(メタデータ) (2020-04-04T18:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。