論文の概要: Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics
- arxiv url: http://arxiv.org/abs/2509.03421v1
- Date: Wed, 03 Sep 2025 15:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.581159
- Title: Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics
- Title(参考訳): 眼疾患・眼科領域におけるジェネラリストとスペシャリスト・ビジョン・ファンデーション・モデル
- Authors: Yukun Zhou, Paul Nderitu, Jocelyn Hui Lin Goh, Justin Engelmann, Siegfried K. Wagner, Anran Ran, Hongyang Jiang, Lie Ju, Ke Zou, Sahana Srinivasan, Hyunmin Kim, Takahiro Ninomiya, Zheyuan Wang, Gabriel Dawei Yang, Eden Ruffell, Dominic Williamson, Rui Santos, Gabor Mark Somfai, Carol Y. Cheung, Tien Yin Wong, Daniel C. Alexander, Yih Chung Tham, Pearse A. Keane,
- Abstract要約: 網膜画像応用におけるDINOv2とDINOv3の適応性の評価を行った。
RETFound-DINOv2は、これらの一般的な基礎モデルにおいて、眼球運動の検出と眼球運動において一貫して優れる。
- 参考スコア(独自算出の注目度): 10.703307148153433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical foundation models, pre-trained with large-scale clinical data, demonstrate strong performance in diverse clinically relevant applications. RETFound, trained on nearly one million retinal images, exemplifies this approach in applications with retinal images. However, the emergence of increasingly powerful and multifold larger generalist foundation models such as DINOv2 and DINOv3 raises the question of whether domain-specific pre-training remains essential, and if so, what gap persists. To investigate this, we systematically evaluated the adaptability of DINOv2 and DINOv3 in retinal image applications, compared to two specialist RETFound models, RETFound-MAE and RETFound-DINOv2. We assessed performance on ocular disease detection and systemic disease prediction using two adaptation strategies: fine-tuning and linear probing. Data efficiency and adaptation efficiency were further analysed to characterise trade-offs between predictive performance and computational cost. Our results show that although scaling generalist models yields strong adaptability across diverse tasks, RETFound-DINOv2 consistently outperforms these generalist foundation models in ocular-disease detection and oculomics tasks, demonstrating stronger generalisability and data efficiency. These findings suggest that specialist retinal foundation models remain the most effective choice for clinical applications, while the narrowing gap with generalist foundation models suggests that continued data and model scaling can deliver domain-relevant gains and position them as strong foundations for future medical foundation models.
- Abstract(参考訳): 大規模臨床データを事前訓練した医療基礎モデルは,臨床関連分野の多種多様な応用において高い性能を示した。
約100万枚の網膜画像に基づいてトレーニングされたRETFoundは、網膜画像を用いたアプリケーションでこのアプローチを実証している。
しかし、DINOv2 や DINOv3 のようなより強力で多角的な一般化的基礎モデルの出現は、ドメイン固有の事前学習が不可欠であり、もしそうであれば、ギャップが持続するかどうかという疑問を提起する。
そこで我々は網膜画像応用におけるDINOv2とDINOv3の適応性を,RETFound-MAEとRETFound-DINOv2の2つの専門モデルと比較した。
眼疾患検出と全身性疾患予測の2つの適応戦略(微調整と線形探傷)を用いて評価を行った。
データ効率と適応効率は、予測性能と計算コストの間のトレードオフを特徴づけるためにさらに分析された。
以上の結果より,RETFound-DINOv2は多種多様なタスクに対して高い適応性を示すが,眼球運動検出や眼球運動処理において,これらのジェネラリスト基盤モデルより常に優れており,より強い一般化性とデータ効率が証明されている。
これらの結果は、臨床応用において、専門網膜基盤モデルが最も有効な選択肢であることを示し、一般基礎モデルとの狭間は、継続したデータとモデルのスケーリングがドメイン関連利益をもたらし、それらを将来の医療基盤モデルのための強力な基盤として位置づけることができることを示唆している。
関連論文リスト
- AI-Assisted Colonoscopy: Polyp Detection and Segmentation using Foundation Models [0.10037949839020764]
大腸内視鏡検査では、Deep Learningモデルの助けを借りて、欠落したポリープの80%を検出できた。
この課題に対処できるアルゴリズムの探索において、ファンデーションモデルは有望な候補として浮上する。
ゼロショットまたは少数ショットの学習機能により、広範囲の微調整なしに、新しいデータやタスクへの一般化が容易になる。
ポリプセグメンテーションの基礎モデルを総合的に評価し, 検出と分解の両面から評価した。
論文 参考訳(メタデータ) (2025-03-31T14:20:53Z) - Retinal Fundus Multi-Disease Image Classification using Hybrid CNN-Transformer-Ensemble Architectures [0.3277163122167434]
我々の研究は、網膜疾患による人口の急激な世界的な問題に動機付けられています。
我々の主な目的は、網膜疾患を正確に予測できる包括的診断システムを開発することである。
論文 参考訳(メタデータ) (2025-03-27T12:55:07Z) - LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。
我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。
LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文 参考訳(メタデータ) (2024-09-29T03:56:21Z) - Block Expanded DINORET: Adapting Natural Domain Foundation Models for Retinal Imaging Without Catastrophic Forgetting [1.2573191100165562]
我々はDINOv2視覚変換器を自己教師あり学習を用いた網膜画像分類タスクに適用した。
DINORETとBE DINORETという2つの新しい基礎モデルを生成した。
データ効率ではDINORETとBE DINORETがRETFoundより優れていた。
論文 参考訳(メタデータ) (2024-09-25T20:17:16Z) - Evaluating General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks [5.8941124219471055]
DINOv2はオープンソースのファンデーションモデルで、1億4200万のキュレートされた自然画像に対する自己教師付き学習を事前訓練している。
本研究は放射線学におけるDINOv2の性能を総合的に評価する。
論文 参考訳(メタデータ) (2023-12-04T21:47:10Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - IA-GCN: Interpretable Attention based Graph Convolutional Network for
Disease prediction [47.999621481852266]
タスクに対する入力特徴の臨床的関連性を解釈する,解釈可能なグラフ学習モデルを提案する。
臨床シナリオでは、そのようなモデルは、臨床専門家が診断および治療計画のためのより良い意思決定を支援することができる。
本研究では,Tadpoleの平均精度が3.2%,UKBBジェンダーが1.6%,UKBB年齢予測タスクが2%と,比較方法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-29T13:04:02Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。