論文の概要: Towards Generalist Foundation Model for Radiology
- arxiv url: http://arxiv.org/abs/2308.02463v1
- Date: Fri, 4 Aug 2023 17:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 12:03:10.361552
- Title: Towards Generalist Foundation Model for Radiology
- Title(参考訳): 放射線学の一般モデルに向けて
- Authors: Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie
- Abstract要約: 我々は16M2Dと3Dの医用スキャンからなる大規模医療マルチモーダルデータセットMedMDを構築した。
本稿では,2次元あるいは3次元の医用スキャンを組み込んだテキスト入力の統合を可能にする,視覚条件付き生成事前学習を実現するアーキテクチャを提案する。
実験の結果、RadFMは既存のマルチモーダル基礎モデルよりも大幅に優れていたことが確認された。
- 参考スコア(独自算出の注目度): 40.52487429030841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to initiate the development of Radiology Foundation
Model, termed as RadFM.We consider the construction of foundational models from
the perspectives of data, model design, and evaluation thoroughly. Our
contribution can be concluded as follows: (i), we construct a large-scale
Medical Multi-modal Dataset, MedMD, consisting of 16M 2D and 3D medical scans.
To the best of our knowledge, this is the first multi-modal dataset containing
3D medical scans. (ii), We propose an architecture that enables visually
conditioned generative pre-training, allowing for the integration of text input
interleaved with 2D or 3D medical scans to generate response for diverse
radiologic tasks. The model was initially pre-trained on MedMD and subsequently
domain-specific fine-tuned on RadMD, a radiologic cleaned version of MedMD,
containing 3M radiologic visual-language pairs. (iii), we propose a new
evaluation benchmark that comprises five tasks, aiming to comprehensively
assess the capability of foundation models in handling practical clinical
problems. Our experimental results confirm that RadFM significantly outperforms
existing multi-modal foundation models. The codes, data, and model checkpoint
will all be made publicly available to promote further research and development
in the field.
- Abstract(参考訳): 本研究では,RadFMと呼ばれるRadlogy Foundation Modelの開発を目標とし,データ,モデル設計,評価の観点から基礎モデルの構築を徹底的に検討する。
私たちの貢献は次のように結論づけられる。
i)16M2Dと3Dの医用スキャンからなる大規模医療用マルチモーダルデータセットMedMDを構築した。
私たちの知る限りでは、これが3D医療スキャンを含む最初のマルチモーダルデータセットである。
(II)2次元または3次元の医用スキャンとインターリーブされたテキスト入力の統合により,多様な放射線学的タスクに対する応答を生成できるアーキテクチャを提案する。
モデルは当初、MedMDで事前訓練され、その後、RadMDでドメイン固有の微調整が行われた。
(iii) 実践的臨床課題に対する基礎モデルの能力の包括的評価を目的とした, 5つのタスクからなる新しい評価ベンチマークを提案する。
実験の結果,RadFMは既存のマルチモーダル基礎モデルよりも大幅に優れていた。
コード、データ、モデルチェックポイントはすべて、この分野におけるさらなる研究と開発を促進するために公開されます。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation [27.05259342502574]
本稿では,放射線学に適した視覚言語基盤モデルRadFoundを紹介する。
8100万枚以上の画像と25万枚の画像テキストのペアからなる、最も広範なデータセットでトレーニングされている。
専門家レベルのマルチモーダル認識と生成能力を確立するために、RadFoundは拡張された視覚エンコーダを導入した。
論文 参考訳(メタデータ) (2024-09-24T15:31:49Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - medigan: A Python Library of Pretrained Generative Models for Enriched
Data Access in Medical Imaging [3.8568465270960264]
mediganは、オープンソースのフレームワークに依存しないPythonライブラリとして実装された、事前訓練された生成モデルのワンストップショップである。
研究者や開発者は、ほんの数行のコードでトレーニングデータを作成し、拡大し、ドメインに適応することができる。
ライブラリのスケーラビリティと設計は、統合され、容易に利用できる事前訓練された生成モデルの増加によって実証される。
論文 参考訳(メタデータ) (2022-09-28T23:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。