論文の概要: Comparative Analysis of Deep Learning Strategies for Hypertensive Retinopathy Detection from Fundus Images: From Scratch and Pre-trained Models
- arxiv url: http://arxiv.org/abs/2506.12492v1
- Date: Sat, 14 Jun 2025 13:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.384873
- Title: Comparative Analysis of Deep Learning Strategies for Hypertensive Retinopathy Detection from Fundus Images: From Scratch and Pre-trained Models
- Title(参考訳): 基礎画像からの高血圧性網膜症検出のための深層学習戦略の比較分析:スクラッチモデルと事前訓練モデルから
- Authors: Yanqiao Zhu,
- Abstract要約: 本稿では,眼底画像から高血圧性網膜症を検出するためのディープラーニング手法の比較分析を行った。
我々は、カスタムCNN、トレーニング済みトランスフォーマーベースモデルのスイート、AutoMLソリューションの3つの異なるアプローチについて検討する。
- 参考スコア(独自算出の注目度): 5.860609259063137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comparative analysis of deep learning strategies for detecting hypertensive retinopathy from fundus images, a central task in the HRDC challenge~\cite{qian2025hrdc}. We investigate three distinct approaches: a custom CNN, a suite of pre-trained transformer-based models, and an AutoML solution. Our findings reveal a stark, architecture-dependent response to data augmentation. Augmentation significantly boosts the performance of pure Vision Transformers (ViTs), which we hypothesize is due to their weaker inductive biases, forcing them to learn robust spatial and structural features. Conversely, the same augmentation strategy degrades the performance of hybrid ViT-CNN models, whose stronger, pre-existing biases from the CNN component may be "confused" by the transformations. We show that smaller patch sizes (ViT-B/8) excel on augmented data, enhancing fine-grained detail capture. Furthermore, we demonstrate that a powerful self-supervised model like DINOv2 fails on the original, limited dataset but is "rescued" by augmentation, highlighting the critical need for data diversity to unlock its potential. Preliminary tests with a ViT-Large model show poor performance, underscoring the risk of using overly-capacitive models on specialized, smaller datasets. This work provides critical insights into the interplay between model architecture, data augmentation, and dataset size for medical image classification.
- Abstract(参考訳): 本稿では, HRDC 課題における中心課題である ftus 画像から高血圧性網膜症を検出するためのディープラーニング手法の比較分析を行った。
我々は、カスタムCNN、トレーニング済みトランスフォーマーベースモデルのスイート、AutoMLソリューションの3つの異なるアプローチについて検討する。
以上の結果から,データ拡張に対するアーキテクチャ依存的な応答が明らかとなった。
拡張により、純粋な視覚変換器(ViT)の性能が著しく向上するが、これはより弱い帰納バイアスのためであり、堅牢な空間的・構造的特徴を学習せざるを得ない、と仮定する。
逆に、同じ拡張戦略はハイブリッドViT-CNNモデルの性能を低下させ、CNNコンポーネントからのより強く、既存のバイアスは変換によって"強調"される可能性がある。
より小さなパッチサイズ (ViT-B/8) が拡張データに優れたことを示し, きめ細かなディテールキャプチャーを向上した。
さらに、DINOv2のような強力な自己教師型モデルは、オリジナルの限られたデータセットではフェールしないが、拡張によって"救われる"ことを実証し、その可能性の解放にデータ多様性が不可欠であることを強調した。
ViT-Largeモデルによる予備的なテストではパフォーマンスが悪く、特殊な小さなデータセットで過剰な容量モデルを使用することのリスクが強調されている。
この研究は、医療画像分類のためのモデルアーキテクチャ、データ拡張、データセットサイズ間の相互作用に関する重要な洞察を提供する。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Deep models for stroke segmentation: do complex architectures always perform better? [1.4651272514940197]
ストロークセグメンテーションは脳卒中患者の診断と治療において重要な役割を担っている。
一般的な医用画像分割のためのディープモデルが導入された。
本研究では,最近提案された4種類の深部モデルを選択し,脳卒中セグメンテーションの性能評価を行った。
論文 参考訳(メタデータ) (2024-03-25T20:44:01Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Efficiently Training Vision Transformers on Structural MRI Scans for
Alzheimer's Disease Detection [2.359557447960552]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンアプリケーションのためのCNNの代替として登場した。
難易度に基づいて,脳神経画像の下流タスクに対するViTアーキテクチャの変種を検証した。
合成および実MRIスキャンで事前訓練した微調整型視覚変換器モデルを用いて、5%と9-10%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-03-14T20:18:12Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Are Vision Transformers Robust to Spurious Correlations? [23.73056953692978]
ディープニューラルネットワークは、平均的ではあるが非定型的なテストサンプルにはない、刺激的な相関を学習する可能性がある。
本稿では,3つのベンチマークデータセットにおいて,視覚変換器のロバスト性について検討する。
彼らの成功の鍵は、素早い相関が保たない例からより良く一般化できることである。
論文 参考訳(メタデータ) (2022-03-17T07:03:37Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。