論文の概要: FusionFM: Fusing Eye-specific Foundational Models for Optimized Ophthalmic Diagnosis
- arxiv url: http://arxiv.org/abs/2508.11721v1
- Date: Fri, 15 Aug 2025 01:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.30217
- Title: FusionFM: Fusing Eye-specific Foundational Models for Optimized Ophthalmic Diagnosis
- Title(参考訳): FusionFM:最適化眼科診断のための眼特異的基礎モデル
- Authors: Ke Zou, Jocelyn Hui Lin Goh, Yukun Zhou, Tian Lin, Samantha Min Er Yew, Sahana Srinivasan, Meng Wang, Rui Santos, Gabor M. Somfai, Huazhu Fu, Haoyu Chen, Pearse A. Keane, Ching-Yu Cheng, Yih Chung Tham,
- Abstract要約: ファンデーションモデル(FM)は、様々な下流タスクの一般化を改善することにより、医療画像解析において大きな可能性を秘めている。
我々の知る限り、これは単眼と融合眼のFMの両方を体系的に評価する最初の研究である。
我々は、複数の国の標準化データセットを用いて4つの最先端FMをベンチマークし、AUCとF1メトリクスを用いてそれらの性能を評価した。
- 参考スコア(独自算出の注目度): 36.79693801937608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs) have shown great promise in medical image analysis by improving generalization across diverse downstream tasks. In ophthalmology, several FMs have recently emerged, but there is still no clear answer to fundamental questions: Which FM performs the best? Are they equally good across different tasks? What if we combine all FMs together? To our knowledge, this is the first study to systematically evaluate both single and fused ophthalmic FMs. To address these questions, we propose FusionFM, a comprehensive evaluation suite, along with two fusion approaches to integrate different ophthalmic FMs. Our framework covers both ophthalmic disease detection (glaucoma, diabetic retinopathy, and age-related macular degeneration) and systemic disease prediction (diabetes and hypertension) based on retinal imaging. We benchmarked four state-of-the-art FMs (RETFound, VisionFM, RetiZero, and DINORET) using standardized datasets from multiple countries and evaluated their performance using AUC and F1 metrics. Our results show that DINORET and RetiZero achieve superior performance in both ophthalmic and systemic disease tasks, with RetiZero exhibiting stronger generalization on external datasets. Regarding fusion strategies, the Gating-based approach provides modest improvements in predicting glaucoma, AMD, and hypertension. Despite these advances, predicting systemic diseases, especially hypertension in external cohort remains challenging. These findings provide an evidence-based evaluation of ophthalmic FMs, highlight the benefits of model fusion, and point to strategies for enhancing their clinical applicability.
- Abstract(参考訳): ファンデーションモデル(FM)は、様々な下流タスクの一般化を改善することにより、医療画像解析において大きな可能性を秘めている。
眼科では、最近いくつかのFMが出現しましたが、根本的な疑問に対する明確な答えはありません。
それらは、異なるタスクに対して等しく良いか?
すべてのFMを組み合わせればどうだろう?
我々の知る限り、これは単眼と融合眼のFMの両方を体系的に評価する最初の研究である。
これらの課題に対処するため、我々は、異なる眼科用FMを統合するための2つの融合アプローチとともに、総合的な評価スイートであるFusionFMを提案する。
眼科疾患検出(緑内障,糖尿病網膜症,加齢に伴う黄斑変性)と全身性疾患予知(糖尿病,高血圧)を網膜イメージングを用いて検討した。
我々は、複数の国の標準データセットを用いて最先端FM(RETFound, VisionFM, RetiZero, DINORET)を4つベンチマークし、AUCおよびF1メトリクスを用いてそれらの性能を評価した。
以上の結果から,DINORETとRetiZeroは眼疾患および全身疾患のタスクにおいて優れた成績を示し,RetiZeroは外部データセットに対してより強力な一般化を示した。
融合戦略に関しては、Gatingベースのアプローチは緑内障、AMD、高血圧の予測において控えめな改善をもたらす。
これらの進歩にもかかわらず、全身疾患、特に外部コホートにおける高血圧の予測は依然として困難である。
これらの知見は, 眼科的FMのエビデンスに基づく評価, モデル融合の利点, 臨床応用性を高めるための方策を示すものである。
関連論文リスト
- From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [55.64033992736822]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文 参考訳(メタデータ) (2025-04-18T12:09:15Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Is an Ultra Large Natural Image-Based Foundation Model Superior to a Retina-Specific Model for Detecting Ocular and Systemic Diseases? [15.146396276161937]
RETFoundおよびDINOv2モデルは眼疾患検出および全身性疾患予知タスクのために評価された。
RETFoundは、心不全、梗塞、虚血性脳梗塞の予測において、すべてのDINOv2モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-10T09:31:39Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - ELF: An End-to-end Local and Global Multimodal Fusion Framework for
Glaucoma Grading [43.12236694270165]
ELFと呼ばれる緑内障のグレーディングのための,エンドツーエンドの局所的およびグローバルなマルチモーダル融合フレームワークを提案する。
ELFは、FundusとOCTの補完情報を十分に活用することができる。
GAMMAデータセットを用いたマルチモーダル緑内障に対する広範囲な実験により,ELFの有効性が証明された。
論文 参考訳(メタデータ) (2023-11-14T09:51:00Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。