Fugu-MT 論文翻訳(概要): Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data

論文の概要: Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data

arxiv url: http://arxiv.org/abs/2308.02463v5
Date: Thu, 16 Nov 2023 12:38:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 18:31:09.348498
Title: Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data
Title（参考訳）: Webスケール2D&3D医療データを活用した放射線学一般基盤モデルに向けて
Authors: Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie
Abstract要約: この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
参考スコア（独自算出の注目度）: 66.9359934608229
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM. We consider the construction of foundational models from three perspectives, namely, dataset construction, model design, and thorough evaluation. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, which consists of 16M 2D and 3D medical scans with high-quality text descriptions or reports across various data formats, modalities, and tasks, covering over 5000 distinct diseases. To the best of our knowledge, this is the first large-scale, high-quality, medical visual-language dataset, with both 2D and 3D scans; (ii), we propose an architecture that enables visually conditioned generative pre-training, i.e., allowing for integration of text input with 2D or 3D medical scans, and generate responses for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. We conduct both automatic and human evaluation on RadBench, in both cases, RadFM outperforms existing multi-modal foundation models, that are publicaly accessible, including Openflamingo, MedFlamingo, MedVInT and GPT-4V. Additionally, we also adapt RadFM for different public benchmarks, surpassing existing SOTAs on diverse datasets. All codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
Abstract（参考訳）: 本研究ではRadFMと呼ばれるRadlogy Foundation Modelの開発に着手することを目的としている。我々は,データセット構築,モデル設計,徹底的な評価という3つの視点から基礎モデルの構築を考える。私たちの貢献は次のように結論づけられる。 i) MedMDは16Mの2次元および3次元の医用スキャンと高品質なテキスト記述や各種データフォーマット,モダリティ,タスクのレポートで構成され,5,000以上の異なる疾患をカバーしている。私たちの知る限りでは、これは2Dと3Dの両方のスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。二) テキスト入力を2次元または3次元の医療スキャンと統合し, 多様な放射線学的タスクに対する応答を生成できる, 視覚的条件付き生成前訓練を可能にするアーキテクチャを提案する。このモデルは、最初はMedMDで事前訓練され、その後、RadMDと呼ばれる3Mの放射能視覚言語対を含むMedMDの放射能浄化版であるドメイン固有のデータセットで微調整された。 (iii)本研究では,基礎モデルの実用的臨床応用能力の包括的評価を目的とした,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる,新たな評価ベンチマークradbenchを提案する。いずれの場合においても,radfmはopenflamingo, medflamingo, medvint, gpt-4vなど,公開可能な既存のマルチモーダル基盤モデルよりも優れている。さらに、RadFMをさまざまな公開ベンチマークに適用し、さまざまなデータセット上で既存のSOTAを上回ります。すべてのコード、データ、モデルチェックポイントが公開され、この分野におけるさらなる研究と開発を促進する。

関連論文リスト

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks [14.366478737339909]
医用視覚質問応答 (Med-VQA) は, 臨床診断支援に有意な可能性を秘めている。本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
論文参考訳（メタデータ） (2025-06-11T09:55:42Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation [27.05259342502574]
本稿では,放射線学に適した視覚言語基盤モデルRadFoundを紹介する。 8100万枚以上の画像と25万枚の画像テキストのペアからなる、最も広範なデータセットでトレーニングされている。専門家レベルのマルチモーダル認識と生成能力を確立するために、RadFoundは拡張された視覚エンコーダを導入した。
論文参考訳（メタデータ） (2024-09-24T15:31:49Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
Advancing Multimodal Medical Capabilities of Gemini [32.28727204275662]
我々は、ジェミニのコア能力を継承する新しいメドジェニーニ族の中で、いくつかのモデルを開発する。 Med-Gemini-2Dは、専門家の評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定する。 Med-Gemini-3D は3次元CT(Computerd tomography)ボリュームのための最初の大規模マルチモーダル・モデルに基づくレポート生成である。
論文参考訳（メタデータ） (2024-05-06T04:44:22Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。 120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文参考訳（メタデータ） (2024-03-31T06:55:12Z)
HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文参考訳（メタデータ） (2024-03-20T05:50:04Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。 M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文参考訳（メタデータ） (2023-04-03T20:19:56Z)
medigan: A Python Library of Pretrained Generative Models for Enriched Data Access in Medical Imaging [3.8568465270960264]
mediganは、オープンソースのフレームワークに依存しないPythonライブラリとして実装された、事前訓練された生成モデルのワンストップショップである。研究者や開発者は、ほんの数行のコードでトレーニングデータを作成し、拡大し、ドメインに適応することができる。ライブラリのスケーラビリティと設計は、統合され、容易に利用できる事前訓練された生成モデルの増加によって実証される。
論文参考訳（メタデータ） (2022-09-28T23:45:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。