論文の概要: Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging
- arxiv url: http://arxiv.org/abs/2403.08002v1
- Date: Tue, 12 Mar 2024 18:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:09.470029
- Title: Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging
- Title(参考訳): バイオメディカル・コンピテンシーギャップを橋渡しする小型マルチモーダルモデル:A
放射線画像のケーススタディ
- Authors: Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu,
Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang,
Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng
Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P.
Lungren, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon
- Abstract要約: バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
- 参考スコア(独自算出の注目度): 114.43429928419755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling laws and extraordinary performance of large foundation models
motivate the development and utilization of such large models in biomedicine.
However, despite early promising results on some biomedical benchmarks, there
are still major challenges that need to be addressed before these models can be
used in real-world applications. Frontier models such as GPT-4V still have
major competency gaps in multimodal capabilities for biomedical applications.
Moreover, pragmatic issues such as access, cost, latency, and compliance make
it hard for clinicians to use privately-hosted state-of-the-art large models
directly on private patient data. In this paper, we explore training
open-source small multimodal models (SMMs) to bridge biomedical competency gaps
for unmet clinical needs. To maximize data efficiency, we adopt a modular
approach by incorporating state-of-the-art pre-trained models for image and
text modalities, and focusing on training a lightweight adapter to ground each
modality to the text embedding space. We conduct a comprehensive study of this
approach on radiology imaging. For training, we assemble a large dataset with
over 1 million image-text pairs. For evaluation, we propose a clinically driven
novel approach using GPT-4 and demonstrate its parity with expert evaluation.
We also study grounding qualitatively using attention. For best practice, we
conduct a systematic ablation study on various choices in data engineering and
multimodal training. The resulting LLaVA-Rad (7B) model attains
state-of-the-art results on radiology tasks such as report generation and
cross-modal retrieval, even outperforming much larger models such as GPT-4V and
Med-PaLM M (84B). LLaVA-Rad is fast and can be run on a single V100 GPU in
private settings, offering a promising state-of-the-art tool for real-world
clinical applications.
- Abstract(参考訳): 大規模ファンデーションモデルのスケーリング法則と異常な性能は、このような大規模モデルのバイオメディシン開発と利用を動機付けている。
しかしながら、いくつかのバイオメディカルなベンチマークで早期に有望な結果が出たにもかかわらず、これらのモデルが現実世界のアプリケーションで使われるようになる前に対処する必要がある大きな課題がまだ残っている。
GPT-4Vのようなフロンティアモデルは、バイオメディカル応用のためのマルチモーダル能力において依然として大きな能力ギャップがある。
さらに、アクセス、コスト、レイテンシ、コンプライアンスといった実用的問題により、臨床医は、プライベートにホストされた最先端の大規模モデルをプライベートな患者データに直接使用するのが難しくなる。
本稿では, バイオメディカル・コンピテンシーのギャップを埋めるために, オープンソースの小型マルチモーダル・モデル(SMM)の訓練について検討する。
データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、各モダリティをテキスト埋め込み空間に基礎付けるための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。
ラジオグラフィー画像におけるこのアプローチの包括的研究を行っている。
トレーニングのために、100万以上の画像テキストペアからなる大規模なデータセットを組み立てます。
評価のために,GPT-4を用いた臨床駆動型新規アプローチを提案し,専門家による評価と同等性を実証した。
我々はまた、注意力を用いて定性的に接地について研究する。
ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。
結果のLLaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった放射線学のタスクにおいて、GPT-4V や Med-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
関連論文リスト
- SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。
このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文 参考訳(メタデータ) (2024-09-03T00:48:50Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - The Shaky Foundations of Clinical Foundation Models: A Survey of Large
Language Models and Foundation Models for EMRs [5.7482228499062975]
非イメージングEMRデータに基づいて訓練された80以上の基礎モデルをレビューする。
ほとんどのモデルが、小さく、狭められた臨床データセットでトレーニングされていることが分かりました。
臨床基礎モデルの利点を評価するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T23:54:14Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。