論文の概要: Validating Vision Transformers for Otoscopy: Performance and Data-Leakage Effects
- arxiv url: http://arxiv.org/abs/2511.04872v1
- Date: Thu, 06 Nov 2025 23:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.617444
- Title: Validating Vision Transformers for Otoscopy: Performance and Data-Leakage Effects
- Title(参考訳): 眼科用視覚変換器のバリデーション:性能とデータ漏洩効果
- Authors: James Ndubuisi, Fernando Auat, Marta Vallejo,
- Abstract要約: 本研究では、耳疾患の診断精度を高めるために、視覚トランスモデル、特にスウィントランスモデルの有効性を評価する。
この研究はチリ大学臨床病院の耳鼻咽喉科の実際のデータセットを利用した。
- 参考スコア(独自算出の注目度): 42.465094107111646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the efficacy of vision transformer models, specifically Swin transformers, in enhancing the diagnostic accuracy of ear diseases compared to traditional convolutional neural networks. With a reported 27% misdiagnosis rate among specialist otolaryngologists, improving diagnostic accuracy is crucial. The research utilised a real-world dataset from the Department of Otolaryngology at the Clinical Hospital of the Universidad de Chile, comprising otoscopic videos of ear examinations depicting various middle and external ear conditions. Frames were selected based on the Laplacian and Shannon entropy thresholds, with blank frames removed. Initially, Swin v1 and Swin v2 transformer models achieved accuracies of 100% and 99.1%, respectively, marginally outperforming the ResNet model (99.5%). These results surpassed metrics reported in related studies. However, the evaluation uncovered a critical data leakage issue in the preprocessing step, affecting both this study and related research using the same raw dataset. After mitigating the data leakage, model performance decreased significantly. Corrected accuracies were 83% for both Swin v1 and Swin v2, and 82% for the ResNet model. This finding highlights the importance of rigorous data handling in machine learning studies, especially in medical applications. The findings indicate that while vision transformers show promise, it is essential to find an optimal balance between the benefits of advanced model architectures and those derived from effective data preprocessing. This balance is key to developing a reliable machine learning model for diagnosing ear diseases.
- Abstract(参考訳): 本研究では、従来の畳み込みニューラルネットワークと比較して耳疾患の診断精度を高めるために、視覚トランスモデル、特にスウィントランスモデルの有効性を評価する。
専門の耳鼻咽喉科医の誤診率は27%と報告されており、診断精度の向上が重要である。
この研究は、チリ大学臨床病院の耳咽喉科の実際のデータセットを利用して、様々な中耳と外耳の状態を映した耳の観察ビデオを含む。
フレームはラプラシアとシャノンのエントロピー閾値に基づいて選択され、ブランクフレームは除去された。
当初、Swin v1とSwin v2のトランスフォーマーモデルはそれぞれ100%と99.1%の精度を達成し、ResNetモデル(99.5%)を上回った。
これらの結果は、関連する研究で報告された指標を上回った。
しかし、この評価は前処理工程において重要なデータ漏洩問題を明らかにし、同じ生データセットを用いた研究と関連する研究の両方に影響を及ぼした。
データ漏洩を緩和した後、モデルの性能は大幅に低下した。
修正精度はSwin v1とSwin v2の両方で83%、ResNetモデルでは82%であった。
この発見は、特に医学応用における機械学習研究における厳密なデータ処理の重要性を強調している。
この結果は,ビジョントランスフォーマーが将来性を示す一方で,高度なモデルアーキテクチャの利点と,効率的なデータ前処理の利点との最適なバランスを見つけることが不可欠であることを示唆している。
このバランスは、耳疾患を診断するための信頼性の高い機械学習モデルを開発する上で鍵となる。
関連論文リスト
- Deep Learning for Oral Health: Benchmarking ViT, DeiT, BEiT, ConvNeXt, and Swin Transformer [0.0]
この研究は特に、データ不均衡のような現実世界の課題に対処することに焦点を当てた。
ConvNeXt、Swin Transformer、BEiTは信頼性の高い診断性能を示した。
論文 参考訳(メタデータ) (2025-09-27T04:17:04Z) - Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis [0.20482269513546453]
mpoxは動物園で流行するウイルス病で、公衆衛生に重大な影響を及ぼす。
症状が麻疹や鶏痘の症状とどのように一致しているかから,早期臨床診断は困難である。
深層学習(DL)技術と併用した医用画像は, 皮膚領域を解析することにより, 疾患検出の改善を約束している。
本研究は,皮膚病変画像データセットを用いて,深層学習と視覚トランスフォーマーに基づくモデルをスクラッチからトレーニングする可能性について検討した。
論文 参考訳(メタデータ) (2025-04-03T19:45:22Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Comparative Performance Analysis of Transformer-Based Pre-Trained Models for Detecting Keratoconus Disease [0.0]
本研究は、変性眼疾患である角膜症(keratoconus)の診断のために、訓練済みの8つのCNNを比較した。
MobileNetV2は角膜と正常な症例を誤分類の少ない場合に最も正確なモデルであった。
論文 参考訳(メタデータ) (2024-08-16T20:15:24Z) - Enhancing Skin Disease Classification Leveraging Transformer-based Deep Learning Architectures and Explainable AI [2.3149142745203326]
皮膚疾患は世界の人口の3分の1以上に影響を与えるが、その影響は過小評価されることが多い。
深層学習技術は皮膚疾患の特定を含む様々なタスクに多くの可能性を示してきた。
この研究では、31のクラスを持つ皮膚疾患データセットを使用し、Vision Transformers、Swin Transformers、DivoV2のすべてのバージョンと比較した。
論文 参考訳(メタデータ) (2024-07-20T05:38:00Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Comparative Analysis of Epileptic Seizure Prediction: Exploring Diverse
Pre-Processing Techniques and Machine Learning Models [0.0]
脳波データを用いたてんかん発作予測のための5つの機械学習モデルの比較分析を行った。
本分析の結果は,各モデルの性能を精度で示すものである。
ETモデルは99.29%の精度で最高の性能を示した。
論文 参考訳(メタデータ) (2023-08-06T08:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。