論文の概要: When CNNs Outperform Transformers and Mambas: Revisiting Deep Architectures for Dental Caries Segmentation
- arxiv url: http://arxiv.org/abs/2511.14860v1
- Date: Tue, 18 Nov 2025 19:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.500737
- Title: When CNNs Outperform Transformers and Mambas: Revisiting Deep Architectures for Dental Caries Segmentation
- Title(参考訳): CNNがトランスフォーマーとマンバを上回り、歯科用カレーセグメンテーションの深部構造を再考する
- Authors: Aashish Ghimire, Jun Zeng, Roshan Paudel, Nikhil Kumar Tomar, Deepak Ranjan Nayak, Harshith Reddy Nalla, Vivek Jha, Glenda Reynolds, Debesh Jha,
- Abstract要約: コンボリューションニューラルネットワーク,ビジョントランスフォーマー,および状態空間のマンバアーキテクチャを,DC1000データセットによるパノラマX線写真による自動歯列セグメンテーションのために,初めて包括的なベンチマークを行った。
その結果、CNNベースのDoubleU-Netは、複雑な注意に基づくアーキテクチャの傾向とは対照的に、最も高いダイス係数は0.7345、mIoUは0.5978、精度は0.8145となり、全ての変圧器やマンバの変圧器よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 9.108764893521526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate identification and segmentation of dental caries in panoramic radiographs are critical for early diagnosis and effective treatment planning. Automated segmentation remains challenging due to low lesion contrast, morphological variability, and limited annotated data. In this study, we present the first comprehensive benchmarking of convolutional neural networks, vision transformers and state-space mamba architectures for automated dental caries segmentation on panoramic radiographs through a DC1000 dataset. Twelve state-of-the-art architectures, including VMUnet, MambaUNet, VMUNetv2, RMAMamba-S, TransNetR, PVTFormer, DoubleU-Net, and ResUNet++, were trained under identical configurations. Results reveal that, contrary to the growing trend toward complex attention based architectures, the CNN-based DoubleU-Net achieved the highest dice coefficient of 0.7345, mIoU of 0.5978, and precision of 0.8145, outperforming all transformer and Mamba variants. In the study, the top 3 results across all performance metrics were achieved by CNN-based architectures. Here, Mamba and transformer-based methods, despite their theoretical advantage in global context modeling, underperformed due to limited data and weaker spatial priors. These findings underscore the importance of architecture-task alignment in domain-specific medical image segmentation more than model complexity. Our code is available at: https://github.com/JunZengz/dental-caries-segmentation.
- Abstract(参考訳): パノラマX線写真における歯列の正確な同定とセグメンテーションは早期診断と効果的な治療計画に重要である。
病変のコントラストの低さ,形態的変動性,注釈付きデータに制限があるため,自動セグメンテーションは依然として困難である。
本研究では, コンボリューションニューラルネットワーク, ビジョントランスフォーマー, 状態空間のマンバアーキテクチャを, DC1000データセットを用いたパノラマX線写真による自動歯列分割のための, 総合的なベンチマークを行った。
VMUnet、MambaUNet、VMUNetv2、RMAMamba-S、TransNetR、PVTFormer、DoubleU-Net、ResUNet++を含む12の最先端アーキテクチャは、同じ構成でトレーニングされた。
その結果、CNNベースのDoubleU-Netは、複雑な注意に基づくアーキテクチャの傾向とは対照的に、最も高いダイス係数は0.7345、mIoUは0.5978、精度は0.8145となり、全ての変圧器やマンバの変圧器よりも優れていることがわかった。
調査では、すべてのパフォーマンス指標のトップ3が、CNNベースのアーキテクチャによって達成された。
ここでは、マンバとトランスフォーマーに基づく手法は、大域的文脈モデリングにおける理論的優位性にもかかわらず、限られたデータとより弱い空間的先行性のために性能が劣っている。
これらの知見は、モデル複雑さよりも、ドメイン固有の医用画像セグメント化におけるアーキテクチャとタスクのアライメントの重要性を強調した。
私たちのコードは、https://github.com/JunZengz/dental-caries-segmentation.comで利用可能です。
関連論文リスト
- When Swin Transformer Meets KANs: An Improved Transformer Architecture for Medical Image Segmentation [10.656996937993199]
我々は,有理機能に基づくKAN(Kolmogorov-Arnold Networks)をSwin Transformerエンコーダに統合したU-NetライクアーキテクチャであるUKASTを紹介する。
UKASTは、4つの異なる2Dおよび3D医療画像セグメンテーションベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-06T05:44:57Z) - Performance Analysis of Deep Learning Models for Femur Segmentation in MRI Scan [5.5193366921929155]
我々は3つのCNNベースモデル(U-Net, Attention U-Net, U-KAN)と1つのトランスフォーマーベースモデルSAM 2の性能評価と比較を行った。
このデータセットは11,164個のMRIスキャンと大腿骨領域の詳細なアノテーションから構成されている。
注意点U-Netは全体のスコアが最も高く、U-KANは興味の少ない解剖学的領域において優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-04-05T05:47:56Z) - MambaClinix: Hierarchical Gated Convolution and Mamba-Based U-Net for Enhanced 3D Medical Image Segmentation [6.673169053236727]
医用画像分割のための新しいU字型アーキテクチャであるMambaClinixを提案する。
MambaClinixは、階層的なゲート畳み込みネットワークとMambaを適応的なステージワイドフレームワークに統合する。
以上の結果から,MambaClinixは低モデルの複雑さを維持しつつ高いセグメンテーション精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-09-19T07:51:14Z) - Deep models for stroke segmentation: do complex architectures always perform better? [1.4651272514940197]
ストロークセグメンテーションは脳卒中患者の診断と治療において重要な役割を担っている。
一般的な医用画像分割のためのディープモデルが導入された。
本研究では,最近提案された4種類の深部モデルを選択し,脳卒中セグメンテーションの性能評価を行った。
論文 参考訳(メタデータ) (2024-03-25T20:44:01Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。