論文の概要: Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs
- arxiv url: http://arxiv.org/abs/2508.13461v1
- Date: Tue, 19 Aug 2025 02:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.771333
- Title: Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs
- Title(参考訳): キドニーストーン画像分類のための視覚変換器:CNNとの比較検討
- Authors: Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul,
- Abstract要約: 本研究では,視覚変換器(ViT)とCNNモデルの比較分析を行った。
ImageNet-21kで事前訓練されたViTベースモデルは、複数の撮像条件で一貫してResNet50ベースラインを上回った。
- 参考スコア(独自算出の注目度): 1.6273083168563973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kidney stone classification from endoscopic images is critical for personalized treatment and recurrence prevention. While convolutional neural networks (CNNs) have shown promise in this task, their limited ability to capture long-range dependencies can hinder performance under variable imaging conditions. This study presents a comparative analysis between Vision Transformers (ViTs) and CNN-based models, evaluating their performance on two ex vivo datasets comprising CCD camera and flexible ureteroscope images. The ViT-base model pretrained on ImageNet-21k consistently outperformed a ResNet50 baseline across multiple imaging conditions. For instance, in the most visually complex subset (Section patches from endoscopic images), the ViT model achieved 95.2% accuracy and 95.1% F1-score, compared to 64.5% and 59.3% with ResNet50. In the mixed-view subset from CCD-camera images, ViT reached 87.1% accuracy versus 78.4% with CNN. These improvements extend across precision and recall as well. The results demonstrate that ViT-based architectures provide superior classification performance and offer a scalable alternative to conventional CNNs for kidney stone image analysis.
- Abstract(参考訳): 内視鏡画像からの腎臓石の分類はパーソナライズされた治療と再発予防に重要である。
畳み込みニューラルネットワーク(CNN)はこのタスクにおいて有望であるが、長距離依存をキャプチャする能力の制限は、可変撮像条件下でのパフォーマンスを妨げる可能性がある。
本研究では、視覚変換器(ViT)とCNNベースのモデルの比較分析を行い、CCDカメラとフレキシブル尿管鏡画像からなる2つの生体外データセットの性能評価を行った。
ImageNet-21kで事前訓練されたViTベースモデルは、複数の撮像条件で一貫してResNet50ベースラインを上回った。
例えば、最も視覚的に複雑なサブセット(内視鏡画像からのSection patch)では、ViTモデルは95.2%の精度と95.1%のF1スコアを達成したが、ResNet50では64.5%と59.3%であった。
CCDカメラ画像の混合ビューサブセットでは、ViTは87.1%の精度でCNNでは78.4%に達した。
これらの改善は精度とリコールにも及んでいる。
以上の結果から,ViTベースのアーキテクチャは優れた分類性能を提供し,腎臓結石画像解析における従来のCNNに代わるスケーラブルな代替手段を提供することが示された。
関連論文リスト
- Detecção da Psoríase Utilizando Visão Computacional: Uma Abordagem Comparativa Entre CNNs e Vision Transformers [0.0]
本報告では, 咽頭病変とそれに似た疾患を含む多分類画像のタスクにおけるCNNとViTsの性能の比較を行った。
ViTはより小型のモデルで優れた性能を誇った。
本稿では、医用画像分類タスクにおけるViTsの可能性を強化する。
論文 参考訳(メタデータ) (2025-06-11T19:00:32Z) - NCT-CRC-HE: Not All Histopathological Datasets Are Equally Useful [15.10324445908774]
本稿では,NCT-CRC-HE-100Kの大腸癌データセットの解析を行った。
このデータセットと得られた結果の両方が、データ固有のバイアスの影響を受けている可能性がある。
画像あたりの3つの特徴しか使用していない最も単純なモデルでさえ、この9クラスデータセットで50%以上の精度を示すことができる。
論文 参考訳(メタデータ) (2024-09-17T20:36:03Z) - A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - Explainable Convolutional Neural Networks for Retinal Fundus Classification and Cutting-Edge Segmentation Models for Retinal Blood Vessels from Fundus Images [0.0]
眼底画像における網膜血管の検査による早期診断の重要領域に焦点を当てた研究。
基礎画像解析の研究は,8つの事前学習CNNモデルを用いたディープラーニングに基づく分類を進歩させる。
本研究では,Grad-CAM,Grad-CAM++,Score-CAM,Faster Score-CAM,Layer CAMなどの説明可能なAI技術を利用する。
論文 参考訳(メタデータ) (2024-05-12T17:21:57Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Scopeformer: n-CNN-ViT Hybrid Model for Intracranial Hemorrhage
Classification [0.0]
本稿では、視覚変換器(ViT)モデルを改善するために、畳み込みニューラルネットワーク(CNN)のアンサンブルからなる特徴生成器を提案する。
複数のXception CNNを用いて抽出した特徴マップを徐々に積み重ねることで、VTモデルのための特徴量豊富な入力を開発することができることを示す。
論文 参考訳(メタデータ) (2021-07-07T20:20:24Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。