論文の概要: Evaluating Visual Explanations of Attention Maps for Transformer-based Medical Imaging
- arxiv url: http://arxiv.org/abs/2503.09535v1
- Date: Wed, 12 Mar 2025 16:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:05.628329
- Title: Evaluating Visual Explanations of Attention Maps for Transformer-based Medical Imaging
- Title(参考訳): 変圧器型医用画像における注意図の視覚的説明の評価
- Authors: Minjae Chung, Jong Bum Won, Ganghyun Kim, Yujin Kim, Utku Ozbulak,
- Abstract要約: 注意マップの視覚的説明と,他の医用画像診断法との比較を行った。
注意マップは一定の条件下での有望性を示し,説明可能性においてGradCAMを上回っていることがわかった。
本研究は, 認識可能性の方法としての注意マップの有効性が文脈依存的であり, 医用意思決定に必要となる総合的な洞察を常に提供していないため, 限定的である可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.6505619784178047
- License:
- Abstract: Although Vision Transformers (ViTs) have recently demonstrated superior performance in medical imaging problems, they face explainability issues similar to previous architectures such as convolutional neural networks. Recent research efforts suggest that attention maps, which are part of decision-making process of ViTs can potentially address the explainability issue by identifying regions influencing predictions, especially in models pretrained with self-supervised learning. In this work, we compare the visual explanations of attention maps to other commonly used methods for medical imaging problems. To do so, we employ four distinct medical imaging datasets that involve the identification of (1) colonic polyps, (2) breast tumors, (3) esophageal inflammation, and (4) bone fractures and hardware implants. Through large-scale experiments on the aforementioned datasets using various supervised and self-supervised pretrained ViTs, we find that although attention maps show promise under certain conditions and generally surpass GradCAM in explainability, they are outperformed by transformer-specific interpretability methods. Our findings indicate that the efficacy of attention maps as a method of interpretability is context-dependent and may be limited as they do not consistently provide the comprehensive insights required for robust medical decision-making.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、最近医療画像問題において優れた性能を示したが、畳み込みニューラルネットワークのような従来のアーキテクチャと同様、説明可能性の問題に直面している。
近年の研究では,ViTの意思決定プロセスの一部であるアテンションマップが,特に自己教師型学習で事前訓練されたモデルにおいて,予測に影響を及ぼす領域を特定することで,説明可能性の問題に対処できる可能性が示唆されている。
本研究では,注意マップの視覚的説明と,他の医用画像診断法との比較を行った。
そこで我々は,(1)大腸ポリープ,(2)乳癌,(3)食道炎症,(4)骨骨折およびハードウェアインプラントの同定を含む4つの異なる医用画像データセットを用いた。
各種の教師付きおよび自己教師型事前学習型ViTを用いた大規模実験により,注意マップは一定の条件下での有望性を示し,説明可能性においてGradCAMを上回っているものの,トランスフォーマー固有の解釈可能性法により性能が向上していることが判明した。
本研究は, 認識可能性の方法としての注意マップの有効性が文脈依存的であり, 堅牢な医療意思決定に必要な総合的な洞察を常に提供していないため, 限定的である可能性が示唆された。
関連論文リスト
- Hierarchical Vision Transformer with Prototypes for Interpretable Medical Image Classification [0.0]
視覚変換器であるHierViTは、本質的に解釈可能であり、その推論を人間のものと適応させる。
肺評価のためのLIDC-IDRIと皮膚病変分類のためのDerm7ptの2つの医学的ベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2025-02-13T06:24:07Z) - GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-08-10T09:46:25Z) - An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis [61.089776864520594]
医用画像のテキストレポートの代替としてアイトラッキングを提案する。
医用画像を読み,診断する際に放射線科医の視線を追跡することにより,その視覚的注意と臨床的理由を理解することができる。
対照的な学習フレームワークのためのプラグイン・アンド・プレイモジュールとして,McGIP (McGIP) を導入した。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - A Recent Survey of Vision Transformers for Medical Image Segmentation [2.4895533667182703]
ヴィジュアルトランスフォーマー(ViT)は、医用画像セグメンテーションの課題に対処するための有望な技術として登場した。
マルチスケールアテンション機構により、遠方構造間の長距離依存を効果的にモデル化することができる。
近年、研究者らは、ハイブリッドビジョントランスフォーマー(HVT)として知られるアーキテクチャにCNNを組み込む様々なViTベースのアプローチを考案した。
論文 参考訳(メタデータ) (2023-12-01T14:54:44Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Towards Evaluating Explanations of Vision Transformers for Medical
Imaging [7.812073412066698]
Vision Transformer (ViT)は、画像分類のための畳み込みニューラルネットワークに代わる有望な代替手段である。
本稿では胸部X線画像の分類に応用したViTにおける様々な解釈手法の性能について検討する。
論文 参考訳(メタデータ) (2023-04-12T19:37:28Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。