論文の概要: Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data
- arxiv url: http://arxiv.org/abs/2308.02463v5
- Date: Thu, 16 Nov 2023 12:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:31:09.348498
- Title: Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data
- Title(参考訳): Webスケール2D&3D医療データを活用した放射線学一般基盤モデルに向けて
- Authors: Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie
- Abstract要約: この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
- 参考スコア(独自算出の注目度): 66.9359934608229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to initiate the development of Radiology Foundation
Model, termed as RadFM. We consider the construction of foundational models
from three perspectives, namely, dataset construction, model design, and
thorough evaluation. Our contribution can be concluded as follows: (i), we
construct a large-scale Medical Multi-modal Dataset, MedMD, which consists of
16M 2D and 3D medical scans with high-quality text descriptions or reports
across various data formats, modalities, and tasks, covering over 5000 distinct
diseases. To the best of our knowledge, this is the first large-scale,
high-quality, medical visual-language dataset, with both 2D and 3D scans; (ii),
we propose an architecture that enables visually conditioned generative
pre-training, i.e., allowing for integration of text input with 2D or 3D
medical scans, and generate responses for diverse radiologic tasks. The model
was initially pre-trained on MedMD and subsequently fine-tuned on the
domain-specific dataset, which is a radiologic cleaned version of MedMD,
containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we
propose a new evaluation benchmark, RadBench, that comprises five tasks,
including modality recognition, disease diagnosis, visual question answering,
report generation and rationale diagnosis, aiming to comprehensively assess the
capability of foundation models in handling practical clinical problems. We
conduct both automatic and human evaluation on RadBench, in both cases, RadFM
outperforms existing multi-modal foundation models, that are publicaly
accessible, including Openflamingo, MedFlamingo, MedVInT and GPT-4V.
Additionally, we also adapt RadFM for different public benchmarks, surpassing
existing SOTAs on diverse datasets. All codes, data, and model checkpoint will
all be made publicly available to promote further research and development in
the field.
- Abstract(参考訳): 本研究ではRadFMと呼ばれるRadlogy Foundation Modelの開発に着手することを目的としている。
我々は,データセット構築,モデル設計,徹底的な評価という3つの視点から基礎モデルの構築を考える。
私たちの貢献は次のように結論づけられる。
i) MedMDは16Mの2次元および3次元の医用スキャンと高品質なテキスト記述や各種データフォーマット,モダリティ,タスクのレポートで構成され,5,000以上の異なる疾患をカバーしている。
私たちの知る限りでは、これは2Dと3Dの両方のスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
二) テキスト入力を2次元または3次元の医療スキャンと統合し, 多様な放射線学的タスクに対する応答を生成できる, 視覚的条件付き生成前訓練を可能にするアーキテクチャを提案する。
このモデルは、最初はMedMDで事前訓練され、その後、RadMDと呼ばれる3Mの放射能視覚言語対を含むMedMDの放射能浄化版であるドメイン固有のデータセットで微調整された。
(iii)本研究では,基礎モデルの実用的臨床応用能力の包括的評価を目的とした,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる,新たな評価ベンチマークradbenchを提案する。
いずれの場合においても,radfmはopenflamingo, medflamingo, medvint, gpt-4vなど,公開可能な既存のマルチモーダル基盤モデルよりも優れている。
さらに、RadFMをさまざまな公開ベンチマークに適用し、さまざまなデータセット上で既存のSOTAを上回ります。
すべてのコード、データ、モデルチェックポイントが公開され、この分野におけるさらなる研究と開発を促進する。
関連論文リスト
- Large-scale Long-tailed Disease Diagnosis on Radiology Images [59.37561810438641]
本研究では,放射線画像における大規模大語彙疾患分類の問題点について検討する。
i)データセット構築では、39,026ケース(192,675スキャン)を含む930のユニークなICD-10-CMコードとリンクした5568の障害を含む、学術的にアクセス可能な大規模診断データセットを構築します。
さらに,本研究の最終モデルは事前学習モデルとして機能し,様々な外部データセットの診断に役立てることができる。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - 3D-MIR: A Benchmark and Empirical Study on 3D Medical Image Retrieval in
Radiology [6.851500027718433]
3D画像検索の分野はまだ発展途上であり、確立された評価ベンチマーク、包括的なデータセット、徹底的な研究が欠如している。
本稿では,3次元医用画像検索のための新しいベンチマーク(3D-MIR)を提案する。
このベンチマークを用いて,一般的なマルチモーダル基礎モデルの2次元スライス,3次元ボリューム,マルチモーダル埋め込みをクエリとして利用する,多様な検索戦略を探索する。
論文 参考訳(メタデータ) (2023-11-23T00:57:35Z) - INSPECT: A Multimodal Dataset for Pulmonary Embolism Diagnosis and
Prognosis [19.32686665459374]
肺塞栓症(PE)リスクの高い大コホートからの非同定型経時的記録を含むINSPECTについて紹介する。
INSPECTには、CT画像、放射線医学報告印象セクション、構造化電子健康記録(EHR)データ(人口統計、診断、手順、バイタル、医薬品など)を含む19,402人のデータが含まれている。
論文 参考訳(メタデータ) (2023-11-17T07:28:16Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Medical Multimodal-Multitask Foundation Model for Superior Chest CT
Performance [14.850088420906175]
患者管理にはマルチモーダルデータとのマルチタスクインタラクションが必要である。
第一種医療マルチモーダルマルチタスク基盤モデル(M3FM)を提案する。
M3FMは、肺がんスクリーニング、心臓疾患予測、その他のCT関連タスクに優れたボリュームCT画像撮影性能を実現している。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - medigan: A Python Library of Pretrained Generative Models for Enriched
Data Access in Medical Imaging [3.8568465270960264]
mediganは、オープンソースのフレームワークに依存しないPythonライブラリとして実装された、事前訓練された生成モデルのワンストップショップである。
研究者や開発者は、ほんの数行のコードでトレーニングデータを作成し、拡大し、ドメインに適応することができる。
ライブラリのスケーラビリティと設計は、統合され、容易に利用できる事前訓練された生成モデルの増加によって実証される。
論文 参考訳(メタデータ) (2022-09-28T23:45:33Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Two heads are better than one: Enhancing medical representations by
pre-training over structured and unstructured electronic health records [23.379185792773875]
マルチモーダル EHR から代表的特徴を自動学習するために,UMM-PLM という,深層学習に基づく医用事前訓練言語モデルを提案する。
まず,各データソースから一助表現を別々に学習する一助情報表現モジュールを開発した。
異なるモジュラリティ間の相互作用をモデル化するために、クロスモーダルモジュールが導入された。
論文 参考訳(メタデータ) (2022-01-25T06:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。