論文の概要: Bridging visual saliency and large language models for explainable deep learning in medical imaging
- arxiv url: http://arxiv.org/abs/2605.06197v1
- Date: Thu, 07 May 2026 13:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.812528
- Title: Bridging visual saliency and large language models for explainable deep learning in medical imaging
- Title(参考訳): 医用画像における説明可能な深層学習のためのブリッジングビジュアル・サリエンシと大規模言語モデル
- Authors: Paul Valery Nguezet, Elie Tagne Fute, Yusuf Brima, Benoit Martin Azanguezet, Marcellin Atemkeng,
- Abstract要約: 本稿では、畳み込みニューラルネットワーク予測と脳腫瘍分類のための臨床的に実行可能な洞察のギャップを橋渡しする枠組みを提案する。
視覚的、解剖学的、言語的なモダリティを統一されたパイプラインに統合することにより、このフレームワークは技術的に基礎があり、有意義に解釈可能な説明を生成する。
- 参考スコア(独自算出の注目度): 1.0765359420035392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The opaque nature of deep learning models remains a significant barrier to their clinical adoption in medical imaging. This paper presents a multimodal explainability framework that bridges the gap between convolutional neural network (CNN) predictions and clinically actionable insights for brain tumor classification, leveraging large language models (LLMs) to deliver human-interpretable diagnostic narratives. The proposed framework operates through three coupled stages. First, nine CNN architectures are extended with a dual-output hybrid formulation that simultaneously optimises a classification head and a segmentation head, enabling spatially richer feature learning. Second, visual saliency attribution methods, namely Grad-CAM, Grad-CAM++, and ScoreCAM, are applied to generate class-discriminative heatmaps, which are subsequently refined into binary tumor masks via an adaptive percentile thresholding pipeline. Third, the resulting masks are mapped onto the Harvard-Oxford cortical atlas to translate pixel-level evidence into named neuroanatomical structures, and the extracted findings are encoded into a structured JSON file that conditions three LLMs (Grok3, Mistral, and LLaMA) to generate coherent, radiological-style diagnostic reports. Evaluated on a dataset of 4,834 contrast-enhanced T1-weighted brain MRI images spanning three tumor classes, InceptionResNetV2 achieved the highest classification performance and Grad-CAM++ yielded the best segmentation overlap. Among the language models, Grok3 led in lexical diversity and coherence, while LLaMA achieved the highest readability score. By integrating visual, anatomical, and linguistic modalities into a unified pipeline, the framework produces explanations that are technically grounded and meaningfully interpretable, advancing the transparency and clinical accountability of artificial intelligence assisted brain tumor diagnosis.
- Abstract(参考訳): 深層学習モデルの不透明な性質は、医療画像における臨床応用にとって重要な障壁である。
本稿では、畳み込みニューラルネットワーク(CNN)予測と脳腫瘍分類のための臨床的に実行可能な知見のギャップを橋渡しする多モーダル説明可能性フレームワークについて述べる。
提案するフレームワークは,3つの結合ステージを通じて動作する。
まず、9つのCNNアーキテクチャを、分類ヘッドとセグメンテーションヘッドを同時に最適化し、空間的にリッチな特徴学習を可能にする二重出力ハイブリッド定式化で拡張する。
第2に、Grad-CAM、Grad-CAM++、ScoreCAMといった視覚的塩分寄与法を用いて、クラス識別型ヒートマップを生成し、その後適応パーセンタイル閾値パイプラインを介してバイナリな腫瘍マスクに精製する。
第三に、得られたマスクはハーバード・オックスフォード大脳皮質アトラスにマッピングされ、ピクセルレベルの証拠を命名された神経解剖学的構造に翻訳し、抽出された結果は、3つのLCM(Grok3、Mistral、LLaMA)を条件とした構造化JSONファイルに符号化され、一貫性のある放射線学的診断レポートを生成する。
InceptionResNetV2は4,834個の造影T1強調MRI画像から評価され、最も高い分類性能を示し、Grad-CAM++は最高のセグメンテーションオーバーラップを得た。
言語モデルの中でGrok3は語彙多様性とコヒーレンスをリードし、LLaMAは最高可読性スコアを達成した。
このフレームワークは、視覚的、解剖学的、言語学的モダリティを統一されたパイプラインに統合することにより、技術的に基礎があり、意味論的に解釈可能な説明を生成し、人工知能による脳腫瘍の診断の透明性と臨床的説明性を向上させる。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence [0.8661035825236842]
XMorphは、3つの顕著な脳腫瘍の詳細な分類のための説明可能で効率的なフレームワークである。
Information-Weighted boundary Normalization (IWBN) 機構を提案する。
デュアルチャネルで説明可能なAIモジュールは、GradCAM++ビジュアルキューとLLM生成したテキストの合理性を組み合わせて、モデル推論を臨床的に解釈可能な洞察に変換する。
論文 参考訳(メタデータ) (2026-02-24T18:28:08Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - Multimodal Fusion at Three Tiers: Physics-Driven Data Generation and Vision-Language Guidance for Brain Tumor Segmentation [8.695435245976482]
本稿では,脳腫瘍の正確なセグメンテーションを実現する3層融合アーキテクチャを提案する。
この方法は、画素、特徴、意味レベルで情報を段階的に処理する。
我々は,脳腫瘍(BraTS)2020,2021,2023データセットの検証を行った。
論文 参考訳(メタデータ) (2025-07-14T06:32:59Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - An Optimization Framework for Processing and Transfer Learning for the
Brain Tumor Segmentation [2.0886519175557368]
我々は脳腫瘍セグメント化のための3次元U-Netモデルに基づく最適化フレームワークを構築した。
このフレームワークには、さまざまな前処理や後処理技術、トランスファーラーニングなど、さまざまなテクニックが組み込まれている。
検証データセット上で、この多モード脳腫瘍セグメンテーションフレームワークは、それぞれチャレンジ1、2、3におけるDiceスコア平均0.79、0.72、0.74を達成する。
論文 参考訳(メタデータ) (2024-02-10T18:03:15Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Triplet Contrastive Learning for Brain Tumor Classification [99.07846518148494]
本稿では,脳腫瘍の深層埋め込みを直接学習する手法を提案する。
本手法は,27種類の腫瘍群からなる広範囲な脳腫瘍データセットを用いて評価し,そのうち13種は稀である。
論文 参考訳(メタデータ) (2021-08-08T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。