Fugu-MT 論文翻訳(概要): Training Small Multimodal Models to Bridge Biomedical Competency Gap: A Case Study in Radiology Imaging

論文の概要: Training Small Multimodal Models to Bridge Biomedical Competency Gap: A Case Study in Radiology Imaging

arxiv url: http://arxiv.org/abs/2403.08002v1
Date: Tue, 12 Mar 2024 18:12:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:55:09.470029
Title: Training Small Multimodal Models to Bridge Biomedical Competency Gap: A Case Study in Radiology Imaging
Title（参考訳）: バイオメディカル・コンピテンシーギャップを橋渡しする小型マルチモーダルモデル:A 放射線画像のケーススタディ
Authors: Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu, Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang, Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P. Lungren, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon
Abstract要約: バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。 LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
参考スコア（独自算出の注目度）: 114.43429928419755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The scaling laws and extraordinary performance of large foundation models motivate the development and utilization of such large models in biomedicine. However, despite early promising results on some biomedical benchmarks, there are still major challenges that need to be addressed before these models can be used in real-world applications. Frontier models such as GPT-4V still have major competency gaps in multimodal capabilities for biomedical applications. Moreover, pragmatic issues such as access, cost, latency, and compliance make it hard for clinicians to use privately-hosted state-of-the-art large models directly on private patient data. In this paper, we explore training open-source small multimodal models (SMMs) to bridge biomedical competency gaps for unmet clinical needs. To maximize data efficiency, we adopt a modular approach by incorporating state-of-the-art pre-trained models for image and text modalities, and focusing on training a lightweight adapter to ground each modality to the text embedding space. We conduct a comprehensive study of this approach on radiology imaging. For training, we assemble a large dataset with over 1 million image-text pairs. For evaluation, we propose a clinically driven novel approach using GPT-4 and demonstrate its parity with expert evaluation. We also study grounding qualitatively using attention. For best practice, we conduct a systematic ablation study on various choices in data engineering and multimodal training. The resulting LLaVA-Rad (7B) model attains state-of-the-art results on radiology tasks such as report generation and cross-modal retrieval, even outperforming much larger models such as GPT-4V and Med-PaLM M (84B). LLaVA-Rad is fast and can be run on a single V100 GPU in private settings, offering a promising state-of-the-art tool for real-world clinical applications.
Abstract（参考訳）: 大規模ファンデーションモデルのスケーリング法則と異常な性能は、このような大規模モデルのバイオメディシン開発と利用を動機付けている。しかしながら、いくつかのバイオメディカルなベンチマークで早期に有望な結果が出たにもかかわらず、これらのモデルが現実世界のアプリケーションで使われるようになる前に対処する必要がある大きな課題がまだ残っている。 GPT-4Vのようなフロンティアモデルは、バイオメディカル応用のためのマルチモーダル能力において依然として大きな能力ギャップがある。さらに、アクセス、コスト、レイテンシ、コンプライアンスといった実用的問題により、臨床医は、プライベートにホストされた最先端の大規模モデルをプライベートな患者データに直接使用するのが難しくなる。本稿では, バイオメディカル・コンピテンシーのギャップを埋めるために, オープンソースの小型マルチモーダル・モデル(SMM)の訓練について検討する。データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、各モダリティをテキスト埋め込み空間に基礎付けるための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。ラジオグラフィー画像におけるこのアプローチの包括的研究を行っている。トレーニングのために、100万以上の画像テキストペアからなる大規模なデータセットを組み立てます。評価のために,GPT-4を用いた臨床駆動型新規アプローチを提案し,専門家による評価と同等性を実証した。我々はまた、注意力を用いて定性的に接地について研究する。ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。結果のLLaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった放射線学のタスクにおいて、GPT-4V や Med-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。 LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。

関連論文リスト

CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models [27.726366396356763]
大規模統合型マルチモーダルベンチマーク(CLIMB)について紹介する。 CLIMBは、画像、言語、時間、グラフのモダリティにまたがる多様な臨床データを統一する包括的なベンチマークである。 CLIMBの事前訓練は、モデルの新たなタスクへの一般化能力を効果的に改善し、タスクに適した融合戦略と組み合わせた場合、強力な単モーダルエンコーダ性能はマルチモーダルパフォーマンスによく変換される。
論文参考訳（メタデータ） (2025-03-09T01:45:05Z)
Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文参考訳（メタデータ） (2025-03-03T22:42:00Z)
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文参考訳（メタデータ） (2024-10-19T02:35:35Z)
The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文参考訳（メタデータ） (2024-09-03T00:48:50Z)
OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文参考訳（メタデータ） (2024-02-28T03:51:02Z)
Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (2023-07-26T17:52:22Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs [5.7482228499062975]
非イメージングEMRデータに基づいて訓練された80以上の基礎モデルをレビューする。ほとんどのモデルが、小さく、狭められた臨床データセットでトレーニングされていることが分かりました。臨床基礎モデルの利点を評価するための評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-22T23:54:14Z)
Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文参考訳（メタデータ） (2020-07-15T09:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。