論文の概要: A Graph-Augmented knowledge Distillation based Dual-Stream Vision Transformer with Region-Aware Attention for Gastrointestinal Disease Classification with Explainable AI
- arxiv url: http://arxiv.org/abs/2512.21372v1
- Date: Wed, 24 Dec 2025 07:51:54 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:05:51.161664
- Title: A Graph-Augmented knowledge Distillation based Dual-Stream Vision Transformer with Region-Aware Attention for Gastrointestinal Disease Classification with Explainable AI
- Title(参考訳): 説明可能なAIを用いた消化器疾患分類のための領域認識型知識拡張型デュアルストリーム視覚変換器
- Authors: Md Assaduzzaman, Nushrat Jahan Oyshi, Eram Mahamud,
- Abstract要約: 本研究は,教師-学生の知識蒸留に基づくハイブリッド二流深層学習フレームワークを提案する。
教師のセマンティックな知識と形態的知識を継承するコンパクトなTiny-ViT構造として学生ネットワークが実装された。
主要なGI疾患クラスを含む2つの注意深くキュレートされたWireless Capsule Endoscopyデータセットを使用して、バランスの取れた表現を保証した。
- 参考スコア(独自算出の注目度): 0.06372261626436675
- License:
- Abstract: The accurate classification of gastrointestinal diseases from endoscopic and histopathological imagery remains a significant challenge in medical diagnostics, mainly due to the vast data volume and subtle variation in inter-class visuals. This study presents a hybrid dual-stream deep learning framework built on teacher-student knowledge distillation, where a high-capacity teacher model integrates the global contextual reasoning of a Swin Transformer with the local fine-grained feature extraction of a Vision Transformer. The student network was implemented as a compact Tiny-ViT structure that inherits the teacher's semantic and morphological knowledge via soft-label distillation, achieving a balance between efficiency and diagnostic accuracy. Two carefully curated Wireless Capsule Endoscopy datasets, encompassing major GI disease classes, were employed to ensure balanced representation and prevent inter-sample bias. The proposed framework achieved remarkable performance with accuracies of 0.9978 and 0.9928 on Dataset 1 and Dataset 2 respectively, and an average AUC of 1.0000, signifying near-perfect discriminative capability. Interpretability analyses using Grad-CAM, LIME, and Score-CAM confirmed that the model's predictions were grounded in clinically significant tissue regions and pathologically relevant morphological cues, validating the framework's transparency and reliability. The Tiny-ViT demonstrated diagnostic performance with reduced computational complexity comparable to its transformer-based teacher while delivering faster inference, making it suitable for resource-constrained clinical environments. Overall, the proposed framework provides a robust, interpretable, and scalable solution for AI-assisted GI disease diagnosis, paving the way toward future intelligent endoscopic screening that is compatible with clinical practicality.
- Abstract(参考訳): 内視鏡的画像と病理組織学的画像からの消化管疾患の正確な分類は、主に大容量のデータ量とクラス間視覚の微妙な変化のために、医学的診断において重要な課題である。
本研究では,教師の知識蒸留に基づくハイブリッドな二流ディープラーニングフレームワークを提案する。高容量の教師モデルは,スウィン変換器のグローバルな文脈推論と視覚変換器の局所的きめ細かい特徴抽出を統合する。
学生ネットワークはTiny-ViT構造として実装され、教師のセマンティックな知識と形態的知識をソフトラベル蒸留により継承し、効率と診断精度のバランスをとる。
主要なGI疾患クラスを含む2つの注意深くキュレートされたWireless Capsule Endoscopyデータセットを使用して、バランスの取れた表現を確保し、サンプル間のバイアスを防ぐ。
提案したフレームワークは,Dataset 1 と Dataset 2 でそれぞれ 0.9978 と 0.9928 の精度で,平均 10000 の AUC を達成し,ほぼ完全な識別能力を示した。
Grad-CAM, LIME, Score-CAMを用いた解析により, 臨床的に重要な組織領域と病理学的に関連のある形態的手がかりにモデルの予測が根拠となり, フレームワークの透明性と信頼性が検証された。
Tiny-ViTは、より高速な推論を提供しながら、トランスフォーマーベースの教師に匹敵する計算複雑性を減らした診断性能を示し、リソース制約のある臨床環境に適している。
全体として、提案するフレームワークは、AI支援GI疾患診断のための堅牢で解釈可能なスケーラブルなソリューションを提供し、臨床実践と互換性のある将来のインテリジェントな内視鏡スクリーニングへの道を開く。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Evaluating the Explainability of Vision Transformers in Medical Imaging [10.88831138993597]
本研究では、異なるビジョントランスフォーマーアーキテクチャと事前学習戦略の説明可能性を評価する。
末梢血細胞分類と乳房超音波画像分類の2つの医療画像の定量的および定性的な解析を行った。
以上の結果から,DINOとGrad-CAMを組み合わせることで,データセット間の最も忠実で局所的な説明が可能になることが示唆された。
論文 参考訳(メタデータ) (2025-10-13T23:53:26Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Overcoming Uncertain Incompleteness for Robust Multimodal Sequential Diagnosis Prediction via Curriculum Data Erasing Guided Knowledge Distillation [0.0]
NECHO v2, NECHO v2は, 欠席頻度が不確実な患者診断の予測精度を高めるために設計された新しいフレームワークである。
まず、不完全なデータの下で、不完全なモダリティ表現の優位性を扱うために、コード中心の診断で設計されたNECHOを修正する。
第2に,修正NECHOを教師と学生の両方に活用して,体系的な知識蒸留を開発する。
論文 参考訳(メタデータ) (2024-07-28T17:14:27Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。