論文の概要: Deep Learning for Oral Health: Benchmarking ViT, DeiT, BEiT, ConvNeXt, and Swin Transformer
- arxiv url: http://arxiv.org/abs/2509.23100v1
- Date: Sat, 27 Sep 2025 04:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.037859
- Title: Deep Learning for Oral Health: Benchmarking ViT, DeiT, BEiT, ConvNeXt, and Swin Transformer
- Title(参考訳): 口腔健康のためのディープラーニング: ViT, DeiT, BEiT, ConvNeXt, Swin Transformerのベンチマーク
- Authors: Ajo Babu George, Sadhvik Bathini, Niranjana S R,
- Abstract要約: この研究は特に、データ不均衡のような現実世界の課題に対処することに焦点を当てた。
ConvNeXt、Swin Transformer、BEiTは信頼性の高い診断性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Objective: The aim of this study was to systematically evaluate and compare the performance of five state-of-the-art transformer-based architectures - Vision Transformer (ViT), Data-efficient Image Transformer (DeiT), ConvNeXt, Swin Transformer, and Bidirectional Encoder Representation from Image Transformers (BEiT) - for multi-class dental disease classification. The study specifically focused on addressing real-world challenges such as data imbalance, which is often overlooked in existing literature. Study Design: The Oral Diseases dataset was used to train and validate the selected models. Performance metrics, including validation accuracy, precision, recall, and F1-score, were measured, with special emphasis on how well each architecture managed imbalanced classes. Results: ConvNeXt achieved the highest validation accuracy at 81.06, followed by BEiT at 80.00 and Swin Transformer at 79.73, all demonstrating strong F1-scores. ViT and DeiT achieved accuracies of 79.37 and 78.79, respectively, but both struggled particularly with Caries-related classes. Conclusions: ConvNeXt, Swin Transformer, and BEiT showed reliable diagnostic performance, making them promising candidates for clinical application in dental imaging. These findings provide guidance for model selection in future AI-driven oral disease diagnostic tools and highlight the importance of addressing data imbalance in real-world scenarios
- Abstract(参考訳): 目的: 本研究の目的は, 視覚変換器 (ViT), データ効率のよい画像変換器 (DeiT), ConvNeXt, Swin Transformer, Bidirectional Encoder Representation from Image Transformer (BEiT) を用いて, マルチクラス歯科疾患分類のための5つの最先端変換器アーキテクチャの性能を体系的に評価・比較することであった。
この研究は、既存の文献では見過ごされがちなデータ不均衡のような現実世界の課題に特に焦点を当てた。
研究設計: 口腔疾患データセットは、選択したモデルのトレーニングと検証に使用された。
検証精度、精度、リコール、F1スコアなどのパフォーマンス指標を測定し、各アーキテクチャが不均衡なクラスをいかにうまく管理するかを強調した。
結果: ConvNeXt は 81.06 で、BEiT は 80.00 で、Swin Transformer は 79.73 で、いずれも強い F1 スコアを示した。
ViT と DeiT はそれぞれ 79.37 と 78.79 のアキュラティを達成したが、どちらも Caries 関連のクラスで特に苦労した。
結論: ConvNeXt, Swin Transformer, BEiTの診断成績は良好であり, 臨床応用の可能性も示唆された。
これらの知見は、将来のAIによる口腔疾患診断ツールにおけるモデル選択のためのガイダンスを提供し、現実のシナリオにおけるデータ不均衡に対処することの重要性を強調している。
関連論文リスト
- Detecção da Psoríase Utilizando Visão Computacional: Uma Abordagem Comparativa Entre CNNs e Vision Transformers [0.0]
本報告では, 咽頭病変とそれに似た疾患を含む多分類画像のタスクにおけるCNNとViTsの性能の比較を行った。
ViTはより小型のモデルで優れた性能を誇った。
本稿では、医用画像分類タスクにおけるViTsの可能性を強化する。
論文 参考訳(メタデータ) (2025-06-11T19:00:32Z) - Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis [0.20482269513546453]
mpoxは動物園で流行するウイルス病で、公衆衛生に重大な影響を及ぼす。
症状が麻疹や鶏痘の症状とどのように一致しているかから,早期臨床診断は困難である。
深層学習(DL)技術と併用した医用画像は, 皮膚領域を解析することにより, 疾患検出の改善を約束している。
本研究は,皮膚病変画像データセットを用いて,深層学習と視覚トランスフォーマーに基づくモデルをスクラッチからトレーニングする可能性について検討した。
論文 参考訳(メタデータ) (2025-04-03T19:45:22Z) - Comparative Performance Analysis of Transformer-Based Pre-Trained Models for Detecting Keratoconus Disease [0.0]
本研究は、変性眼疾患である角膜症(keratoconus)の診断のために、訓練済みの8つのCNNを比較した。
MobileNetV2は角膜と正常な症例を誤分類の少ない場合に最も正確なモデルであった。
論文 参考訳(メタデータ) (2024-08-16T20:15:24Z) - Enhancing Skin Disease Classification Leveraging Transformer-based Deep Learning Architectures and Explainable AI [2.3149142745203326]
皮膚疾患は世界の人口の3分の1以上に影響を与えるが、その影響は過小評価されることが多い。
深層学習技術は皮膚疾患の特定を含む様々なタスクに多くの可能性を示してきた。
この研究では、31のクラスを持つ皮膚疾患データセットを使用し、Vision Transformers、Swin Transformers、DivoV2のすべてのバージョンと比較した。
論文 参考訳(メタデータ) (2024-07-20T05:38:00Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - A Comparative Evaluation Of Transformer Models For De-Identification Of
Clinical Text Data [0.0]
i2b2/UTHealth 2014 臨床テキスト識別チャレンジコーパスには N=1304 臨床ノートが含まれている。
我々は、BERT-base、BERT-large、ROBERTA-base、ROBERTA-large、ALBERT-base、ALBERT-xxlargeなど、いくつかのトランスフォーマーモデルアーキテクチャをコーパス上に微調整する。
モデルの性能を,精度,精度(正の予測値),リコール(感度),F1スコアで評価する。
論文 参考訳(メタデータ) (2022-03-25T19:42:03Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。