論文の概要: EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion
- arxiv url: http://arxiv.org/abs/2505.17367v1
- Date: Fri, 23 May 2025 00:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.751236
- Title: EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion
- Title(参考訳): EVM-Fusion: ニューラルネットワーク融合による説明可能な視覚マンバアーキテクチャ
- Authors: Zichuan Yang,
- Abstract要約: EVM-Fusionは、医療画像分類のための新しいアルゴリズムニューラルネットワークフュージョン(NAF)機構を備えた説明可能な視覚マンバアーキテクチャである。
多様な9クラスの医療画像データセットの実験は、EVM-Fusionの強力な分類性能を示し、99.75%のテスト精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Medical image classification is critical for clinical decision-making, yet demands for accuracy, interpretability, and generalizability remain challenging. This paper introduces EVM-Fusion, an Explainable Vision Mamba architecture featuring a novel Neural Algorithmic Fusion (NAF) mechanism for multi-organ medical image classification. EVM-Fusion leverages a multipath design, where DenseNet and U-Net based pathways, enhanced by Vision Mamba (Vim) modules, operate in parallel with a traditional feature pathway. These diverse features are dynamically integrated via a two-stage fusion process: cross-modal attention followed by the iterative NAF block, which learns an adaptive fusion algorithm. Intrinsic explainability is embedded through path-specific spatial attention, Vim {\Delta}-value maps, traditional feature SE-attention, and cross-modal attention weights. Experiments on a diverse 9-class multi-organ medical image dataset demonstrate EVM-Fusion's strong classification performance, achieving 99.75% test accuracy and provide multi-faceted insights into its decision-making process, highlighting its potential for trustworthy AI in medical diagnostics.
- Abstract(参考訳): 医用画像分類は臨床的意思決定に重要であるが、精度、解釈可能性、一般化性の要求は依然として困難なままである。
本稿では,多臓器画像分類のための新しいニューラルネットワーク融合(NAF)機構を備えた,説明可能な視覚マンバアーキテクチャであるEVM-Fusionを紹介する。
EVM-Fusionはマルチパス設計を利用しており、DenseNetとU-Netベースの経路はVision Mamba(Vim)モジュールによって拡張され、従来の機能パスと並行して動作する。
これらの多様な特徴は、2段階の融合プロセスによって動的に統合される: クロスモーダルな注意に続いて、適応的な融合アルゴリズムを学ぶ反復的NAFブロックが続く。
内在的説明責任は、経路固有の空間的注意、Vim {\Delta}-値マップ、伝統的な特徴SE注意、および横断的注意重みによって埋め込まれている。
多様な9クラスのマルチ組織医療画像データセットの実験は、EVM-Fusionの強力な分類性能を示し、99.75%のテスト精度を達成し、意思決定プロセスに関する多面的な洞察を提供し、医療診断における信頼できるAIの可能性を強調している。
関連論文リスト
- Mamba Based Feature Extraction And Adaptive Multilevel Feature Fusion For 3D Tumor Segmentation From Multi-modal Medical Image [8.999013226631893]
マルチモーダルな3次元医用画像分割は、異なるモーダルの腫瘍領域を正確に同定することを目的としている。
従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、グローバルな特徴を捉えるのに苦労する。
トランスフォーマーに基づく手法は,グローバルな文脈を効果的に捉えつつも,3次元医用画像のセグメンテーションにおいて高い計算コストに直面する。
論文 参考訳(メタデータ) (2025-04-30T03:29:55Z) - Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。
深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。
マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-18T18:11:53Z) - Counterfactual Explanations for Medical Image Classification and Regression using Diffusion Autoencoder [38.81441978142279]
生成モデルの潜在空間を直接操作する新しい手法,特に拡散オートエンコーダ(DAE)を提案する。
このアプローチは、対実的説明(CE)の生成を可能にすることによって、固有の解釈可能性を提供する
これらの潜在表現は、脊椎圧迫骨折(VCF)や糖尿病網膜症(DR)などの病態の医学的分類と経時的回帰に有用であることを示す。
論文 参考訳(メタデータ) (2024-08-02T21:01:30Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - An Interpretable Cross-Attentive Multi-modal MRI Fusion Framework for Schizophrenia Diagnosis [46.58592655409785]
本稿では,fMRI と sMRI のモーダル内およびモーダル間関係を捉えるために,CAMF (Cross-Attentive Multi-modal Fusion framework) を提案する。
提案手法は,2つの広範囲なマルチモーダル脳画像データセットを用いた評価により,分類精度を著しく向上させる。
勾配誘導Score-CAMは、統合失調症に関連する重要な機能的ネットワークと脳領域の解釈に応用される。
論文 参考訳(メタデータ) (2024-03-29T20:32:30Z) - Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。
この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。
本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文 参考訳(メタデータ) (2024-02-11T17:09:21Z) - Diff-UNet: A Diffusion Embedded Network for Volumetric Segmentation [41.608617301275935]
医療用ボリュームセグメンテーションのための新しいエンドツーエンドフレームワークDiff-UNetを提案する。
提案手法では,拡散モデルを標準U字型アーキテクチャに統合し,入力ボリュームから意味情報を効率的に抽出する。
われわれは,MRI,肝腫瘍,多臓器CTの3種類の脳腫瘍について検討した。
論文 参考訳(メタデータ) (2023-03-18T04:06:18Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation
with Transformers [8.139069987207494]
コンボリューション層と強力なアテンション機構を用いた多視点画像情報をマージするトランスフォーマーベースのアーキテクチャであるTransFusionを提案する。
特に、ディバージェント・フュージョン・アテンション(DiFA)モジュールは、リッチ・クロスビュー・コンテキスト・モデリングとセマンティック・インテリジェンス・マイニングのために提案されている。
論文 参考訳(メタデータ) (2022-03-21T04:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。