論文の概要: Evaluating the Explainability of Vision Transformers in Medical Imaging
- arxiv url: http://arxiv.org/abs/2510.12021v1
- Date: Mon, 13 Oct 2025 23:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.119691
- Title: Evaluating the Explainability of Vision Transformers in Medical Imaging
- Title(参考訳): 医用画像における視覚変換器の説明可能性の評価
- Authors: Leili Barekatain, Ben Glocker,
- Abstract要約: 本研究では、異なるビジョントランスフォーマーアーキテクチャと事前学習戦略の説明可能性を評価する。
末梢血細胞分類と乳房超音波画像分類の2つの医療画像の定量的および定性的な解析を行った。
以上の結果から,DINOとGrad-CAMを組み合わせることで,データセット間の最も忠実で局所的な説明が可能になることが示唆された。
- 参考スコア(独自算出の注目度): 10.88831138993597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding model decisions is crucial in medical imaging, where interpretability directly impacts clinical trust and adoption. Vision Transformers (ViTs) have demonstrated state-of-the-art performance in diagnostic imaging; however, their complex attention mechanisms pose challenges to explainability. This study evaluates the explainability of different Vision Transformer architectures and pre-training strategies - ViT, DeiT, DINO, and Swin Transformer - using Gradient Attention Rollout and Grad-CAM. We conduct both quantitative and qualitative analyses on two medical imaging tasks: peripheral blood cell classification and breast ultrasound image classification. Our findings indicate that DINO combined with Grad-CAM offers the most faithful and localized explanations across datasets. Grad-CAM consistently produces class-discriminative and spatially precise heatmaps, while Gradient Attention Rollout yields more scattered activations. Even in misclassification cases, DINO with Grad-CAM highlights clinically relevant morphological features that appear to have misled the model. By improving model transparency, this research supports the reliable and explainable integration of ViTs into critical medical diagnostic workflows.
- Abstract(参考訳): モデル決定を理解することは、解釈可能性が臨床信頼と採用に直接影響を及ぼす医療画像において重要である。
視覚変換器(ViT)は、診断画像の最先端性能を実証しているが、それらの複雑な注意機構は説明可能性に挑戦する。
本研究では,ViT,DeiT,DINO,Swin Transformerといった異なるVision Transformerアーキテクチャと事前学習戦略のグラディエント・アテンション・ロールアウトとGrad-CAMを用いた説明可能性を評価する。
末梢血細胞分類と乳房超音波画像分類の2つの医療画像の定量的および定性的な解析を行った。
以上の結果から,DINOとGrad-CAMを組み合わせることで,データセット間の最も忠実で局所的な説明が可能になることが示唆された。
Grad-CAMはクラス別かつ空間的に正確なヒートマップを一貫して生成し、グラディエント・アテンション・ロールアウトはより散在する活性化をもたらす。
誤分類例においても、DINOとGrad-CAMは、モデルに誤解を与えたと思われる臨床的に関連する形態学的特徴を強調している。
本研究は、モデルの透明性を向上させることにより、重要な医療診断ワークフローへのViTsの信頼性と説明可能な統合を支援する。
関連論文リスト
- Brain Stroke Detection and Classification Using CT Imaging with Transformer Models and Explainable AI [0.0]
本研究では,CTスキャン画像を用いたマルチクラス脳卒中分類のための人工知能フレームワークを提案する。
提案手法は,画像ベースストローク分類の深層学習モデルとして,最先端のビジョン変換器であるMaxViTを採用した。
モデル一般化とアドレスクラス不均衡を改善するため,データ拡張手法を適用した。
論文 参考訳(メタデータ) (2025-07-13T13:50:50Z) - Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.0659716298839]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:19:07Z) - Multi-Scale Transformer Architecture for Accurate Medical Image Classification [4.578375402082224]
本研究では,トランスフォーマーアーキテクチャを改良したAIによる皮膚病変分類アルゴリズムを提案する。
マルチスケールな特徴融合機構の統合と自己認識プロセスの洗練により、このモデルはグローバルな特徴とローカルな特徴の両方を効果的に抽出する。
ISIC 2017データセットのパフォーマンス評価は、改良されたTransformerが既存のAIモデルを上回ることを示している。
論文 参考訳(メタデータ) (2025-02-10T08:22:25Z) - Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。
画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文 参考訳(メタデータ) (2024-08-01T07:35:54Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Towards Evaluating Explanations of Vision Transformers for Medical
Imaging [7.812073412066698]
Vision Transformer (ViT)は、画像分類のための畳み込みニューラルネットワークに代わる有望な代替手段である。
本稿では胸部X線画像の分類に応用したViTにおける様々な解釈手法の性能について検討する。
論文 参考訳(メタデータ) (2023-04-12T19:37:28Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。