論文の概要: EVLF-FM: Explainable Vision Language Foundation Model for Medicine
- arxiv url: http://arxiv.org/abs/2509.24231v1
- Date: Mon, 29 Sep 2025 03:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.718363
- Title: EVLF-FM: Explainable Vision Language Foundation Model for Medicine
- Title(参考訳): EVLF-FM: 説明可能な医用ビジョン言語基盤モデル
- Authors: Yang Bai, Haoran Cheng, Yang Zhou, Jun Zhou, Arun Thirunavukarasu, Yuhe Ke, Jie Yao, Kanae Fukutsu, Chrystie Wan Ning Quek, Ashley Hong, Laura Gutierrez, Zhen Ling Teo, Darren Shu Jeng Ting, Brian T. Soetikno, Christopher S. Nielsen, Tobias Elze, Zengxiang Li, Linh Le Dinh, Hiok Hong Chan, Victor Koh, Marcus Tan, Kelvin Z. Li, Leonard Yip, Ching Yu Cheng, Yih Chung Tham, Gavin Siew Wei Tan, Leopold Schmetterer, Marcus Ang, Rahat Hussain, Jod Mehta, Tin Aung, Lionel Tim-Ee Cheng, Tran Nguyen Tuan Anh, Chee Leong Cheng, Tien Yin Wong, Nan Liu, Iain Beehuat Tan, Soon Thye Lim, Eyal Klang, Tony Kiat Hon Lim, Rick Siow Mong Goh, Yong Liu, Daniel Shu Wei Ting,
- Abstract要約: 本稿では,多モード視覚言語基盤モデルEVLF-FMについて述べる。
EVLF-FMの開発とテストは、23のグローバルデータセットから13万以上のサンプルを含んでいた。
疾患診断のための内部検証では、EVLF-FMは最高平均精度0.858とF1スコア0.797を達成した。
医学的な視覚的グラウンドでは、EVLF-FMは平均mIOU 0.743、Acc@0.5 0.837の9つのモードで恒星の性能を達成した。
- 参考スコア(独自算出の注目度): 26.787109735346103
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the promise of foundation models in medical AI, current systems remain limited - they are modality-specific and lack transparent reasoning processes, hindering clinical adoption. To address this gap, we present EVLF-FM, a multimodal vision-language foundation model (VLM) designed to unify broad diagnostic capability with fine-grain explainability. The development and testing of EVLF-FM encompassed over 1.3 million total samples from 23 global datasets across eleven imaging modalities related to six clinical specialties: dermatology, hepatology, ophthalmology, pathology, pulmonology, and radiology. External validation employed 8,884 independent test samples from 10 additional datasets across five imaging modalities. Technically, EVLF-FM is developed to assist with multiple disease diagnosis and visual question answering with pixel-level visual grounding and reasoning capabilities. In internal validation for disease diagnostics, EVLF-FM achieved the highest average accuracy (0.858) and F1-score (0.797), outperforming leading generalist and specialist models. In medical visual grounding, EVLF-FM also achieved stellar performance across nine modalities with average mIOU of 0.743 and Acc@0.5 of 0.837. External validations further confirmed strong zero-shot and few-shot performance, with competitive F1-scores despite a smaller model size. Through a hybrid training strategy combining supervised and visual reinforcement fine-tuning, EVLF-FM not only achieves state-of-the-art accuracy but also exhibits step-by-step reasoning, aligning outputs with visual evidence. EVLF-FM is an early multi-disease VLM model with explainability and reasoning capabilities that could advance adoption of and trust in foundation models for real-world clinical deployment.
- Abstract(参考訳): 医療AIの基盤モデルが約束されているにもかかわらず、現在のシステムは限定的であり、モダリティに特化しており、透明な推論プロセスが欠如しており、臨床導入を妨げる。
このギャップに対処するため,多モード視覚言語基盤モデル(VLM)であるEVLF-FMを提案する。
EVLF-FMの開発と試験は、皮膚科、肝学、眼科、病理学、肺学、放射線学の6つの臨床専門分野に関連する11の画像モダリティにわたる23のグローバルデータセットから13万以上のサンプルを収集した。
外部検証では、5つの画像モダリティにまたがる10のデータセットから8,884の独立したテストサンプルを使用した。
EVLF-FMは、複数の疾患の診断と、ピクセルレベルの視覚的接地と推論機能による視覚的質問応答を支援するために開発された。
疾患診断のための内部検証において、EVLF-FMは最高平均精度(0.858)とF1スコア(0.797)を達成した。
医学的な視覚的グラウンドでは、EVLF-FMは平均mIOU 0.743、Acc@0.5 0.837の9つのモードで恒星の性能を達成した。
外部検証では、モデルサイズが小さいにもかかわらずF1スコアの強力なゼロショットと少数ショットのパフォーマンスが確認された。
教師付きと視覚的強化の微調整を組み合わせたハイブリッドトレーニング戦略を通じて、EVLF-FMは最先端の精度を達成するだけでなく、ステップバイステップの推論を示し、出力を視覚的証拠と整合させる。
EVLF-FMは、説明可能性と推論能力を備えた初期のマルチリリースVLMモデルであり、実際の臨床展開のための基礎モデルの採用と信頼を促進することができる。
関連論文リスト
- Multimodal, Multi-Disease Medical Imaging Foundation Model (MerMED-FM) [22.690349928759986]
我々は,自己教師付き学習とメモリモジュールを用いて学習した,最先端のマルチモーダル基盤モデルであるMerMED-FMを開発した。
MerMED-FMは10以上の専門品と7つのモダリティから330万枚の医療画像で訓練された。
AUROCは0.988(皮膚)、0.982(病理)、0.951(US)、0.943(CT)、0.931(CFP)、0.894(CXR)の全てのモードで強い性能が達成された。
論文 参考訳(メタデータ) (2025-06-30T18:50:31Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Is an Ultra Large Natural Image-Based Foundation Model Superior to a Retina-Specific Model for Detecting Ocular and Systemic Diseases? [19.8132297355024]
RETFoundおよびDINOv2モデルは眼疾患検出および全身性疾患予知タスクのために評価された。
RETFoundは、心不全、梗塞、虚血性脳梗塞の予測において、すべてのDINOv2モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-10T09:31:39Z) - Privacy-Preserving Federated Foundation Model for Generalist Ultrasound Artificial Intelligence [83.02106623401885]
プライバシー保護型超音波基礎モデルであるUltraFedFMを提案する。
UltraFedFMは、9か国の16の分散医療機関にわたる連合学習を用いて、協調的に事前訓練されている。
疾患診断には0.927のレシーバ動作特性曲線、病変セグメント化には0.878のサイス類似係数を平均的に達成する。
論文 参考訳(メタデータ) (2024-11-25T13:40:11Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。