論文の概要: When Do Domain-Specific Foundation Models Justify Their Cost? A Systematic Evaluation Across Retinal Imaging Tasks
- arxiv url: http://arxiv.org/abs/2511.22001v1
- Date: Thu, 27 Nov 2025 00:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.342877
- Title: When Do Domain-Specific Foundation Models Justify Their Cost? A Systematic Evaluation Across Retinal Imaging Tasks
- Title(参考訳): ドメイン特化ファンデーションモデルはいつコストを正当化するのか?網膜イメージングタスク全体にわたるシステム評価
- Authors: David Isztl, Tahm Spitznagel, Gabor Mark Somfai, Rui Santos,
- Abstract要約: プレトレーニングが普遍的なメリット(5.18-18.41%の改善)を提供することを示す。
コンパクト汎用モデルは、ほとんどの網膜分類タスクに対してほぼ最適性能を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision foundation models have been widely adopted for retinal disease classification without systematic evidence justifying their parameter requirements. In the present work we address two critical questions: First, are large domain-specific foundation models essential, or do compact general-purpose architectures suffice? Second, does specialized retinal pretraining justify its computational cost? To answer this, we benchmark initialization strategies across four retinal imaging classification tasks spanning Optical Coherence Tomography (OCT) and Color Fundus Photography (CFP) modalities: 8-class OCT classification, 3-class diabetic macular edema (DME), 5-class diabetic retinopathy (DR), and 3-class glaucoma (GL) detection. We evaluate 12-13 model configurations per task, including vision transformers (22.8M-86.6M parameters), Swin Transformers (27.6M-28.3M), ConvNeXt (28.6M), and the domain-specific RETFound models (303M), under identical training conditions. Our results challenge prevailing assumptions: First, we demonstrate that pretraining provides universal benefits (5.18-18.41% improvement), scaling with task difficulty. Second, compact architectures (27-29M) dominate Pareto frontiers; SwinV2-tiny achieves top-1 performance on three datasets. Third, RETFound (303M) justifies its computational cost only for challenging DR grading (accuracy of 71.15%), while ImageNet pretraining proves to be sufficient with all other tasks (DME accuracy: 99.24%, OCT accuracy: 97.96%). CFP tasks show larger pretraining accuracy gains (9.13-18.41%) than OCT (5.18%). Thus, the evidence suggests that compact general-purpose models deliver near-optimal performance for most retinal classification tasks; specialized foundation models warranted only for fine-grained discrimination under extreme class imbalance.
- Abstract(参考訳): 大きな視覚基盤モデルは、そのパラメータ要求を正当化する体系的な証拠のない網膜疾患分類に広く採用されている。
第一に、大きなドメイン固有の基盤モデルは不可欠か、それともコンパクトな汎用アーキテクチャは十分か?
第二に、特殊な網膜前訓練は計算コストを正当化するのだろうか?
そこで我々は,光コヒーレンス・トモグラフィー(OCT)とカラー・ファンドス・フォトグラフィー(CFP)を対象とする4種類の網膜画像分類課題(8クラスOCT分類,3クラス糖尿病黄斑浮腫(DME),5クラス糖尿病網膜症(DR),3クラス緑内障(GL)検出)の初期化戦略をベンチマークした。
我々は、視覚変換器(22.8M-86.6Mパラメータ)、スウィン変換器(27.6M-28.3M)、ConvNeXt(28.6M)、ドメイン固有のRETFoundモデル(303M)を含むタスク毎の12-13モデル構成を評価する。
第一に、プレトレーニングが普遍的なメリット(5.18-18.41%の改善)を提供し、タスクの難易度にスケールできることを示します。
第二に、コンパクトアーキテクチャ(27-29M)がParetoフロンティアを支配し、SwinV2-tinyは3つのデータセットでトップ1のパフォーマンスを達成する。
第3に、RETFound (303M)はDRグレーディングに挑戦するためにのみ計算コストを正当化し(精度は71.15%)、ImageNet事前学習は他のすべてのタスク(DME精度:99.24%、OCT精度:97.96%)で十分であることを示した。
CFPタスクはOCT(5.18%)よりもトレーニング前の精度(9.13-18.41%)が大きい。
したがって、コンパクトな汎用モデルは、ほとんどの網膜分類タスクに対してほぼ最適性能をもたらすことを示唆する。
関連論文リスト
- Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging [3.7942449131350413]
3次元MRIの視覚基礎モデルであるTriadを提案する。
Triadは131,170個のMRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用している。
臓器・腫瘍区分,臓器・癌分類,医用画像登録という3つの課題にまたがってTriadを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:31:52Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy [0.0]
本稿では,高忠実かつ多様なDRファウンダス画像を生成するためのフレームワークを提案する。
生成画像内のDR重大度と視覚的特徴を包括的に制御する。
我々は、条件付きで生成したDR画像をグレードで操作し、データセットの多様性をさらに向上する。
論文 参考訳(メタデータ) (2024-09-11T17:08:28Z) - Video and Synthetic MRI Pre-training of 3D Vision Architectures for
Neuroimage Analysis [3.208731414009847]
トランスファーラーニングは、特定のタスクに適応するために、大規模なデータコーパスでディープラーニングモデルを事前訓練することを含む。
視覚変換器 (ViTs) と畳み込みニューラルネットワーク (CNNs) のベンチマークを行った。
得られた事前訓練されたモデルは、ターゲットタスクのトレーニングデータが制限されている場合でも、さまざまな下流タスクに適応することができる。
論文 参考訳(メタデータ) (2023-09-09T00:33:23Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - An Ensemble Method to Automatically Grade Diabetic Retinopathy with
Optical Coherence Tomography Angiography Images [4.640835690336653]
糖尿病網膜症解析チャレンジ(DRAC)2022から得られる糖尿病網膜症(DR)画像を自動的に評価するアンサンブル法を提案する。
まず、最先端の分類ネットワークを採用し、利用可能なデータセットの異なる分割でUW-OCTA画像のグレードをトレーニングする。
最終的に、25のモデルを取得し、そのうち上位16のモデルを選択し、アンサンブルして最終的な予測を生成する。
論文 参考訳(メタデータ) (2022-12-12T22:06:47Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。