論文の概要: GastroViT: A Vision Transformer Based Ensemble Learning Approach for Gastrointestinal Disease Classification with Grad CAM & SHAP Visualization
- arxiv url: http://arxiv.org/abs/2509.26502v1
- Date: Tue, 30 Sep 2025 16:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.213887
- Title: GastroViT: A Vision Transformer Based Ensemble Learning Approach for Gastrointestinal Disease Classification with Grad CAM & SHAP Visualization
- Title(参考訳): GastroViT: Grad CAM & SHAPによる消化器疾患分類のための視覚変換器を用いたアンサンブルラーニングアプローチ
- Authors: Sumaiya Tabassum, Md. Faysal Ahamed, Hafsa Binte Kibria, Md. Nahiduzzaman, Julfikar Haider, Muhammad E. H. Chowdhury, Mohammad Tariqul Islam,
- Abstract要約: 本稿では,GIトラクターの内視鏡像を正確に分類するために,事前訓練された視覚変換器(ViT)のアンサンブルを提案する。
注目に基づくニューラルネットワークであるViTは、トランスフォーマーアーキテクチャの変換パワーを活用することで、画像認識に革命をもたらした。
提案モデルは,23種類のGI疾患の画像10,662枚を用いて,公開されているHyperKvasirデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 6.752543644823974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gastrointestinal (GI) tract of humans can have a wide variety of aberrant mucosal abnormality findings, ranging from mild irritations to extremely fatal illnesses. Prompt identification of gastrointestinal disorders greatly contributes to arresting the progression of the illness and improving therapeutic outcomes. This paper presents an ensemble of pre-trained vision transformers (ViTs) for accurately classifying endoscopic images of the GI tract to categorize gastrointestinal problems and illnesses. ViTs, attention-based neural networks, have revolutionized image recognition by leveraging the transformative power of the transformer architecture, achieving state-of-the-art (SOTA) performance across various visual tasks. The proposed model was evaluated on the publicly available HyperKvasir dataset with 10,662 images of 23 different GI diseases for the purpose of identifying GI tract diseases. An ensemble method is proposed utilizing the predictions of two pre-trained models, MobileViT_XS and MobileViT_V2_200, which achieved accuracies of 90.57% and 90.48%, respectively. All the individual models are outperformed by the ensemble model, GastroViT, with an average precision, recall, F1 score, and accuracy of 69%, 63%, 64%, and 91.98%, respectively, in the first testing that involves 23 classes. The model comprises only 20 million (M) parameters, even without data augmentation and despite the highly imbalanced dataset. For the second testing with 16 classes, the scores are even higher, with average precision, recall, F1 score, and accuracy of 87%, 86%, 87%, and 92.70%, respectively. Additionally, the incorporation of explainable AI (XAI) methods such as Grad-CAM (Gradient Weighted Class Activation Mapping) and SHAP (Shapley Additive Explanations) enhances model interpretability, providing valuable insights for reliable GI diagnosis in real-world settings.
- Abstract(参考訳): ヒトの消化管(GI)は、軽度の刺激から致命的な病気まで、様々な異常な粘膜異常の所見を持つ。
消化管疾患のプロンプト同定は、疾患の進行と治療成績の改善に大きく貢献する。
本稿では,消化管の内視鏡像を正確に分類し,消化器疾患と疾患を分類するための,事前訓練型視覚変換器(ViT)のアンサンブルについて述べる。
注目ベースのニューラルネットワークであるViTは、トランスフォーマーアーキテクチャの変換パワーを活用して、さまざまな視覚タスクにわたって最先端(SOTA)のパフォーマンスを達成することで、画像認識に革命をもたらした。
提案手法は,23種類のGI疾患の画像10,662枚を用いて,公開されているHyperKvasirデータセットを用いて評価した。
事前学習したモデルであるMobileViT_XSとMobileViT_V2_200をそれぞれ90.57%,90.48%の精度で予測し,アンサンブル法を提案する。
アンサンブルモデルであるガストロViTでは、平均精度、リコール、F1スコア、精度は69%、63%、64%、64%、91.98%であり、それぞれ23のクラスを含む最初のテストで上回っている。
このモデルは、データ拡張なしでも、高度に不均衡なデータセットにもかかわらず、わずか2000万(M)のパラメータで構成されている。
16のクラスで2回目のテストでは、平均精度、リコール、F1スコア、精度は87%、86%、87%、92.70%である。
さらに、Grad-CAM(Gradient Weighted Class Activation Mapping)やSHAP(Shapley Additive Explanations)といった説明可能なAI(XAI)メソッドの導入により、モデルの解釈性が向上し、現実の環境で信頼できるGI診断のための貴重な洞察を提供する。
関連論文リスト
- PhenoKG: Knowledge Graph-Driven Gene Discovery and Patient Insights from Phenotypes Alone [40.61937241424789]
本稿では,患者表現型から因果遺伝子を予測するためのグラフベースのアプローチを提案する。
我々のモデルは、グラフニューラルネットワークとトランスフォーマーを組み合わせることで、現在の最先端技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-16T05:54:12Z) - Subspecialty-Specific Foundation Model for Intelligent Gastrointestinal Pathology [38.30990764764014]
Digepathは、GI病理学の専門的な基礎モデルである。
GI疾患の210,043枚のH&E画像から3億3300万枚以上のマルチスケール画像に事前トレーニングされている。
GI病理に関連する34のタスクのうち33のタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T03:22:08Z) - Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis [0.20482269513546453]
mpoxは動物園で流行するウイルス病で、公衆衛生に重大な影響を及ぼす。
症状が麻疹や鶏痘の症状とどのように一致しているかから,早期臨床診断は困難である。
深層学習(DL)技術と併用した医用画像は, 皮膚領域を解析することにより, 疾患検出の改善を約束している。
本研究は,皮膚病変画像データセットを用いて,深層学習と視覚トランスフォーマーに基づくモデルをスクラッチからトレーニングする可能性について検討した。
論文 参考訳(メタデータ) (2025-04-03T19:45:22Z) - Capsule Endoscopy Multi-classification via Gated Attention and Wavelet Transformations [1.5146068448101746]
消化管の異常は患者の健康に大きく影響を与え、タイムリーな診断が必要である。
この研究は、ビデオフレームから消化管の異常を分類するために設計された新しいモデルの開発と評価のプロセスを示す。
Omni次元のGated Attention(OGA)機構とWavelet変換技術をモデルアーキテクチャに統合することで、モデルは最も重要な領域に集中することができた。
このモデルの性能は、VGG16とResNet50の2つのベースモデルに対してベンチマークされ、胃腸の異常範囲を正確に識別し分類する能力の強化が示されている。
論文 参考訳(メタデータ) (2024-10-25T08:01:35Z) - Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy [0.024999074238880488]
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間で最大100万枚の画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-21T22:52:25Z) - Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge [44.76736949127792]
我々はBraTS 2023の頭蓋内髄膜腫チャレンジの設計と結果について述べる。
BraTS髄膜腫チャレンジ(BraTS Meningioma Challenge)は、髄膜腫に焦点を当てた以前のBraTSグリオーマチャレンジとは異なる。
上層部は腫瘍,腫瘍コア,腫瘍全体の拡張のために0.976,0.976,0.964の病変中央値類似係数(DSC)を有していた。
論文 参考訳(メタデータ) (2024-05-16T03:23:57Z) - Liver Tumor Screening and Diagnosis in CT with Pixel-Lesion-Patient
Network [37.931408083443074]
Pixel-Lesion-pAtient Network (PLAN) は, アンカークエリの改善と前景のサンプリング損失による各病変の分割と分類を行う。
PLANは95%と96%の患者レベルの感度と特異性を達成している。
造影CTでは, 病変レベルの検出精度, リコール, 分類精度は92%, 89%, 86%であり, CNNやトランスフォーマーよりも優れていた。
論文 参考訳(メタデータ) (2023-07-17T06:21:45Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。