論文の概要: Benchmarking Convolutional, Transformer, Hybrid, and Vision Language Models for Multi Disease Retinal Screening
- arxiv url: http://arxiv.org/abs/2605.26283v1
- Date: Mon, 25 May 2026 19:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.374692
- Title: Benchmarking Convolutional, Transformer, Hybrid, and Vision Language Models for Multi Disease Retinal Screening
- Title(参考訳): 多疾患網膜スクリーニングのための畳み込み, トランスフォーマー, ハイブリッド, ビジョン言語モデルのベンチマーク
- Authors: Durjoy Dey, Aymane Ajbar, Yuhong Yan,
- Abstract要約: 我々は、畳み込みニューラルネットワーク、ビジョントランスフォーマー、ハイブリッドCNN変換器バックボーン、ビジョン言語モデルという、4つのモデルファミリにまたがる12のアーキテクチャをベンチマークした。
網膜疾患に対するバイナリスクリーニングと,28の疾患クラスにまたがる多ラベル分類の2つの課題について検討した。
SwinTinyとCoAtNet0とMaxViTTinyのハイブリッドモデルは、最強のバイナリスクリーニング結果を実現し、マルチラベル設定におけるマクロおよびマイクロF1を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning offers powerful tools for automated retinal screening, but it remains unclear how different visual model families compare in realistic multi-disease settings and under domain shift. In this work, we benchmark twelve architectures across four model families: convolutional neural networks, vision transformers, hybrid CNN-transformer backbones, and vision-language models, using the Retinal Fundus Multi-disease Image Dataset (RFMiD). We evaluate two tasks: binary screening for any retinal disease and multi-label classification across 28 disease classes. Using standardized training, calibration, and evaluation protocols, we report AUC, F1, precision, recall, and sensitivity at a clinically relevant operating point with specificity near 80%. On RFMiD, all architectures perform well on binary screening, with AUC above 84%, but attention-based models perform best. SwinTiny and the hybrid CoAtNet0 and MaxViTTiny models achieve the strongest binary screening results and improve macro and micro F1 in the multi-label setting. Vision-language models, including CLIP ViT-B/16 and SigLIP-Base384, are competitive with CNN baselines but do not surpass the best transformer and hybrid backbones. In external validation on Messidor-2 for referable diabetic retinopathy, AUC ranges from 66.8% to 84.7%, with hybrid and transformer models again showing strong performance. These results provide a reproducible reference for model selection in multi-disease retinal screening and guide future automated screening tools for clinical deployment.
- Abstract(参考訳): 現代のディープラーニングは、網膜自動スクリーニングのための強力なツールを提供するが、現実的なマルチリリース設定やドメインシフトの下で、視覚モデルファミリがどのように比較されているかは、まだ不明である。
本研究では、畳み込みニューラルネットワーク、ビジョントランスフォーマー、ハイブリッドCNNトランスフォーマーバックボーン、ビジョン言語モデルという、4つのモデルファミリーにまたがる12のアーキテクチャを、Retinal Fundus Multi-disease Image Dataset (RFMiD)を用いてベンチマークする。
網膜疾患に対するバイナリスクリーニングと,28の疾患クラスにまたがる多ラベル分類の2つの課題について検討した。
AUC, F1, 精度, リコール, 感度を, 約80%の特異性を有する臨床関連手術点で報告した。
RFMiDでは、全てのアーキテクチャがバイナリ・スクリーニングにおいて良好に機能し、AUCは84%以上だが、注意に基づくモデルが最も優れている。
SwinTinyとCoAtNet0とMaxViTTinyのハイブリッドモデルは、最強のバイナリスクリーニング結果を実現し、マルチラベル設定におけるマクロおよびマイクロF1を改善する。
CLIP ViT-B/16やSigLIP-Base384といったビジョン言語モデルはCNNベースラインと競合するが、最高のトランスフォーマーやハイブリッドバックボーンを超えない。
糖尿病網膜症に対するMessidor-2に対する外的検証では、AUCは66.8%から84.7%の範囲で、ハイブリッドモデルとトランスフォーマーモデルも高い性能を示した。
これらの結果は、多剤系網膜スクリーニングにおけるモデル選択の再現可能な参照を提供し、臨床展開のための将来の自動スクリーニングツールをガイドする。
関連論文リスト
- CNNs, Transformers, Hybrid, and Vision Language Models for Skin Cancer Detection [0.0]
PAD-UFES-20データセットを用いた2値皮膚がん検出のための12種類の深層学習モデルの統一評価を行った。
モデルは、畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、ハイブリッド畳み込みトランスフォーマーバックボーン、ビジョン言語モデル(VLM)の4つのファミリーにまたがる。
結果は、よく調整されたCNNが既に強力なベースラインを提供していることを示しているが、トランスフォーマーベースのファミリーは、常に差別を改善している。
論文 参考訳(メタデータ) (2026-05-25T19:37:14Z) - Multimodal Fusion of Histopathology Images and Electronic Health Records for Early Breast Cancer Diagnosis [15.70912899013153]
本稿では, パッチレベルの病理組織学的特徴を構造化された臨床データと統合する体系的枠組みを提案する。
単相画像モデル(単純なCNNベースラインと転送学習を備えたResNet-18)と中間融合モデル(XGBoostと多層パーセプトロン)を訓練し評価する。
以上の結果から,マルチモーダル統合は,予測性能と臨床透明性の両方において有意義な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2026-04-18T19:46:34Z) - AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification [45.52399819498234]
本研究は、細粒度作物病分類のための3つのモデルパラダイムの体系的比較を示す。
我々は16の作物と41の病気にまたがる111kの画像を含むベンチマークであるAgriPath-LF16を紹介する。
CNNは画像の精度が最も高いが、ドメインシフトによって劣化する。
対照的なVLMは、競合するクロスドメイン性能を持つ堅牢でパラメータ効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2026-03-08T17:28:01Z) - A Computer Vision Hybrid Approach: CNN and Transformer Models for Accurate Alzheimer's Detection from Brain MRI Scans [0.0]
CNNアーキテクチャは強い性能を保ち、ResNet50は98.83%の精度を達成した。
トランスフォーマーモデルは競争上の一般化能力を示し、ViTは95.38%で最高精度を達成した。
提案したEvan_V2ハイブリッドモデルは、10のCNNとTransformerアーキテクチャの出力を機能レベルの融合によって統合し、99.99%の精度、0.9989 F1スコア、ROC AUCで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2026-01-21T17:19:18Z) - Skin Cancer Classification: Hybrid CNN-Transformer Models with KAN-Based Fusion [0.0]
Convolutional Kolmogorov-Arnold Network (CKAN) を用いた逐次および並列ハイブリッドCNN-Transformerモデルについて検討する。
そこでCNNは局所的な空間的特徴を抽出し、トランスフォーマーはグローバルな依存関係をモデル化し、CKANは表現学習を改善するために非線形な特徴融合を促進する。
HAM10000データセットで92.81%の精度と92.47%のF1スコア、PAD-UFESデータセットで97.83%のF1スコア、91.79%のF1スコア、91.17%のF1スコアを示す。
論文 参考訳(メタデータ) (2025-08-17T19:57:34Z) - Artificial intelligence application in lymphoma diagnosis: from Convolutional Neural Network to Vision Transformer [34.04248949660201]
我々は、視覚変換器の分類性能と、以前設計した同じデータセット上の畳み込みニューラルネットワークを比較した。
著者の知る限りでは、これは視覚変換器モデルと畳み込みニューラルネットワークモデルとの予測性能の初めての直接比較である。
論文 参考訳(メタデータ) (2025-04-05T02:33:34Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - TransMIL: Transformer based Correlated Multiple Instance Learning for
Whole Slide Image Classication [38.58585442160062]
マルチプル・インスタンス・ラーニング(MIL)は、スライド画像全体(WSI)に基づく病理診断において、弱い教師付き分類を解決する強力なツールである。
我々は、相関MILと呼ばれる新しいフレームワークを提案し、収束の証明を提供した。
我々は3つの異なる計算病理問題に対する様々な実験を行い、最先端の手法と比較してより優れた性能と高速な収束を実現した。
論文 参考訳(メタデータ) (2021-06-02T02:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。