論文の概要: A Hybrid Fully Convolutional CNN-Transformer Model for Inherently Interpretable Medical Image Classification
- arxiv url: http://arxiv.org/abs/2504.08481v1
- Date: Fri, 11 Apr 2025 12:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:59.838103
- Title: A Hybrid Fully Convolutional CNN-Transformer Model for Inherently Interpretable Medical Image Classification
- Title(参考訳): 遺伝解析可能な医用画像分類のためのハイブリッド完全畳み込みCNN変換器モデル
- Authors: Kerol Djoumessi, Samuel Ofosu Mensah, Philipp Berens,
- Abstract要約: 医用画像分類のための完全畳み込み型CNN-Transformerアーキテクチャを提案する。
我々のモデルはブラックボックスと解釈可能なモデルと比較して最先端の予測性能を実現する。
- 参考スコア(独自算出の注目度): 5.904095466127043
- License:
- Abstract: In many medical imaging tasks, convolutional neural networks (CNNs) efficiently extract local features hierarchically. More recently, vision transformers (ViTs) have gained popularity, using self-attention mechanisms to capture global dependencies, but lacking the inherent spatial localization of convolutions. Therefore, hybrid models combining CNNs and ViTs have been developed to combine the strengths of both architectures. However, such hybrid CNN-ViT models are difficult to interpret, which hinders their application in medical imaging. In this work, we introduce an interpretable-by-design hybrid fully convolutional CNN-Transformer architecture for medical image classification. Unlike widely used post-hoc saliency methods for ViTs, our approach generates faithful and localized evidence maps that directly reflect the model's decision process. We evaluated our method on two medical image classification tasks using color fundus images. Our model not only achieves state-of-the-art predictive performance compared to both black-box and interpretable models but also provides class-specific sparse evidence maps in a single forward pass. The code is available at: https://anonymous.4open.science/r/Expl-CNN-Transformer/.
- Abstract(参考訳): 多くの医療画像処理において、畳み込みニューラルネットワーク(CNN)は局所的な特徴を階層的に効率的に抽出する。
近年では視覚変換器 (ViT) が普及し,グローバルな依存関係を捉えつつも,畳み込みの空間的局所性が欠如している。
そのため、CNNとViTを組み合わせたハイブリッドモデルは、両方のアーキテクチャの強みを組み合わせるために開発された。
しかし、そのようなハイブリッドCNN-ViTモデルは解釈が困難であり、医療画像への応用を妨げている。
本稿では,医用画像分類のための解釈可能なハイブリッドCNN-Transformerアーキテクチャを提案する。
この手法は, モデル決定過程を直接反映した, 忠実で局所的なエビデンスマップを生成する。
カラーファンドス画像を用いた2つの医用画像分類課題について検討した。
我々のモデルは、ブラックボックスと解釈可能なモデルの両方と比較して最先端の予測性能を達成するだけでなく、クラス固有のスパースエビデンスマップを1つの前方パスで提供する。
コードは、https://anonymous.4open.science/r/Expl-CNN-Transformer/で入手できる。
関連論文リスト
- Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation [10.20771849219059]
医用画像分割のための畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(CiT-Net)のハイブリッドアーキテクチャを提案する。
我々のCit-Netは、一般的なSOTA法よりも優れた医用画像セグメンテーション結果を提供する。
論文 参考訳(メタデータ) (2023-06-06T03:22:22Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - CNNs and Transformers Perceive Hybrid Images Similar to Humans [47.64219291655723]
深層学習視覚モデルの予測は、ハイブリッド画像の人間の知覚と定性的に一致していることを示す。
我々の結果は、畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformer)が、視覚野の腹側の流れにおける情報のフィードフォワードスイープのモデル化に長けているという仮説を支持する新たな証拠を提供する。
論文 参考訳(メタデータ) (2022-03-19T21:37:07Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。