論文の概要: Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation
- arxiv url: http://arxiv.org/abs/2403.08002v5
- Date: Thu, 27 Jun 2024 02:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 19:26:56.952245
- Title: Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation
- Title(参考訳): クリニカル・アクセシブル・ラジオロジー・ファンデーション・モデルに向けて--オープン・アクセスとライトウェイト--自動評価による検討
- Authors: Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu, Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang, Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P. Lungren, Akshay Chaudhari, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon,
- Abstract要約: オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
- 参考スコア(独自算出の注目度): 113.5002649181103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling laws and extraordinary performance of large foundation models motivate the development and utilization of such models in biomedicine. However, despite early promising results on some biomedical benchmarks, there are still major challenges that need to be addressed before these models can be used in real-world clinics. Frontier general-domain models such as GPT-4V still have significant performance gaps in multimodal biomedical applications. More importantly, less-acknowledged pragmatic issues, including accessibility, model cost, and tedious manual evaluation make it hard for clinicians to use state-of-the-art large models directly on private patient data. Here, we explore training open-source small multimodal models (SMMs) to bridge competency gaps for unmet clinical needs in radiology. To maximize data efficiency, we adopt a modular approach by incorporating state-of-the-art pre-trained models for image and text modalities, and focusing on training a lightweight adapter to ground each modality to the text embedding space, as exemplified by LLaVA-Med. For training, we assemble a large dataset of over 697 thousand radiology image-text pairs. For evaluation, we propose CheXprompt, a GPT-4-based metric for factuality evaluation, and demonstrate its parity with expert evaluation. For best practice, we conduct a systematic ablation study on various choices in data engineering and multimodal training. The resulting LlaVA-Rad (7B) model attains state-of-the-art results on standard radiology tasks such as report generation and cross-modal retrieval, even outperforming much larger models such as GPT-4V and Med-PaLM M (84B). The inference of LlaVA-Rad is fast and can be performed on a single V100 GPU in private settings, offering a promising state-of-the-art tool for real-world clinical applications.
- Abstract(参考訳): 大規模基盤モデルのスケーリング法則と異常な性能は, バイオメディシンにおけるそのようなモデルの開発と利用を動機付けている。
しかしながら、いくつかのバイオメディカル・ベンチマークで早期に有望な結果が得られたにもかかわらず、これらのモデルが現実の診療所で使用される前に対処する必要がある大きな課題がまだ残っている。
GPT-4Vのような最前線の一般ドメインモデルは、マルチモーダルなバイオメディカル応用において依然として大きな性能差がある。
さらに重要なのは、アクセシビリティ、モデルコスト、退屈な手作業による評価など、理解されていない実用的な問題によって、臨床医が最先端の大規模モデルをプライベートな患者データで直接使うのが難しくなることだ。
そこで我々は,SMM(Small Multimodal Model)をオープンソースで訓練し,放射線学における非メカニカルニーズに対する能力ギャップを埋める方法について検討する。
データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、LLaVA-Medが示すように、各モダリティをテキスト埋め込み空間に接地するための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。
結果として得られたLlaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった標準的な放射線学のタスクにおいて、GPT-4VやMed-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
関連論文リスト
- SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。
このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文 参考訳(メタデータ) (2024-09-03T00:48:50Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - The Shaky Foundations of Clinical Foundation Models: A Survey of Large
Language Models and Foundation Models for EMRs [5.7482228499062975]
非イメージングEMRデータに基づいて訓練された80以上の基礎モデルをレビューする。
ほとんどのモデルが、小さく、狭められた臨床データセットでトレーニングされていることが分かりました。
臨床基礎モデルの利点を評価するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T23:54:14Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。