論文の概要: Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging
- arxiv url: http://arxiv.org/abs/2403.08002v1
- Date: Tue, 12 Mar 2024 18:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:09.470029
- Title: Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging
- Title(参考訳): バイオメディカル・コンピテンシーギャップを橋渡しする小型マルチモーダルモデル:A
放射線画像のケーススタディ
- Authors: Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu,
Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang,
Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng
Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P.
Lungren, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon
- Abstract要約: バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
- 参考スコア(独自算出の注目度): 114.43429928419755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling laws and extraordinary performance of large foundation models
motivate the development and utilization of such large models in biomedicine.
However, despite early promising results on some biomedical benchmarks, there
are still major challenges that need to be addressed before these models can be
used in real-world applications. Frontier models such as GPT-4V still have
major competency gaps in multimodal capabilities for biomedical applications.
Moreover, pragmatic issues such as access, cost, latency, and compliance make
it hard for clinicians to use privately-hosted state-of-the-art large models
directly on private patient data. In this paper, we explore training
open-source small multimodal models (SMMs) to bridge biomedical competency gaps
for unmet clinical needs. To maximize data efficiency, we adopt a modular
approach by incorporating state-of-the-art pre-trained models for image and
text modalities, and focusing on training a lightweight adapter to ground each
modality to the text embedding space. We conduct a comprehensive study of this
approach on radiology imaging. For training, we assemble a large dataset with
over 1 million image-text pairs. For evaluation, we propose a clinically driven
novel approach using GPT-4 and demonstrate its parity with expert evaluation.
We also study grounding qualitatively using attention. For best practice, we
conduct a systematic ablation study on various choices in data engineering and
multimodal training. The resulting LLaVA-Rad (7B) model attains
state-of-the-art results on radiology tasks such as report generation and
cross-modal retrieval, even outperforming much larger models such as GPT-4V and
Med-PaLM M (84B). LLaVA-Rad is fast and can be run on a single V100 GPU in
private settings, offering a promising state-of-the-art tool for real-world
clinical applications.
- Abstract(参考訳): 大規模ファンデーションモデルのスケーリング法則と異常な性能は、このような大規模モデルのバイオメディシン開発と利用を動機付けている。
しかしながら、いくつかのバイオメディカルなベンチマークで早期に有望な結果が出たにもかかわらず、これらのモデルが現実世界のアプリケーションで使われるようになる前に対処する必要がある大きな課題がまだ残っている。
GPT-4Vのようなフロンティアモデルは、バイオメディカル応用のためのマルチモーダル能力において依然として大きな能力ギャップがある。
さらに、アクセス、コスト、レイテンシ、コンプライアンスといった実用的問題により、臨床医は、プライベートにホストされた最先端の大規模モデルをプライベートな患者データに直接使用するのが難しくなる。
本稿では, バイオメディカル・コンピテンシーのギャップを埋めるために, オープンソースの小型マルチモーダル・モデル(SMM)の訓練について検討する。
データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、各モダリティをテキスト埋め込み空間に基礎付けるための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。
ラジオグラフィー画像におけるこのアプローチの包括的研究を行っている。
トレーニングのために、100万以上の画像テキストペアからなる大規模なデータセットを組み立てます。
評価のために,GPT-4を用いた臨床駆動型新規アプローチを提案し,専門家による評価と同等性を実証した。
我々はまた、注意力を用いて定性的に接地について研究する。
ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。
結果のLLaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった放射線学のタスクにおいて、GPT-4V や Med-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
関連論文リスト
- OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Overcoming Data Scarcity in Biomedical Imaging with a Foundational
Multi-Task Model [2.5994154212235685]
大規模に事前訓練された基礎モデルは、医療以外の領域でかなりの成功を収めている。
本稿では,メモリ要件からトレーニングタスク数を分離するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2023-11-16T12:20:25Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from
fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - CheXstray: Real-time Multi-Modal Data Concordance for Drift Detection in
Medical Imaging AI [1.359138408203412]
医用画像AIドリフトモニタリングワークフローを構築してテストし、同時代の地上真実なしにデータとモデルドリフトを追跡する。
主な貢献は,(1)VAEおよび領域特異的統計手法を含む医用画像ドリフト検出のための概念実証である。
この研究は、動的医療環境における継続的医療画像AIモデルモニタリングに関連する翻訳ギャップに対処するために重要な意味を持つ。
論文 参考訳(メタデータ) (2022-02-06T18:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。