論文の概要: A Hybrid Fully Convolutional CNN-Transformer Model for Inherently Interpretable Disease Detection from Retinal Fundus Images
- arxiv url: http://arxiv.org/abs/2504.08481v4
- Date: Mon, 01 Sep 2025 06:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 12:29:36.764187
- Title: A Hybrid Fully Convolutional CNN-Transformer Model for Inherently Interpretable Disease Detection from Retinal Fundus Images
- Title(参考訳): 網膜基底画像からの遺伝学的疾患検出のためのハイブリッド完全畳み込みCNN変換器モデル
- Authors: Kerol Djoumessi, Samuel Ofosu Mensah, Philipp Berens,
- Abstract要約: 本稿では,網膜疾患検出のための解釈可能なハイブリッドCNN-Transformerアーキテクチャを提案する。
我々のモデルはブラックボックスや解釈可能なモデルと比較して最先端の予測性能を実現する。
- 参考スコア(独自算出の注目度): 5.079347310071244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many medical imaging tasks, convolutional neural networks (CNNs) efficiently extract local features hierarchically. More recently, vision transformers (ViTs) have gained popularity, using self-attention mechanisms to capture global dependencies, but lacking the inherent spatial localization of convolutions. Therefore, hybrid models combining CNNs and ViTs have been developed to combine the strengths of both architectures. However, such hybrid models are difficult to interpret, which hinders their application in medical imaging. In this work, we introduce an interpretable-by-design hybrid fully convolutional CNN-Transformer architecture for retinal disease detection. Unlike widely used post-hoc saliency methods for ViTs, our approach generates faithful and localized evidence maps that directly reflect the mode's decision process. We evaluated our method on two medical tasks focused on disease detection using color fundus images. Our model achieves state-of-the-art predictive performance compared to black-box and interpretable models and provides class-specific sparse evidence maps in a single forward pass. The code is available at: https://github.com/kdjoumessi/Self-Explainable-CNN-Transformer.
- Abstract(参考訳): 多くの医療画像処理において、畳み込みニューラルネットワーク(CNN)は局所的な特徴を階層的に効率的に抽出する。
近年では視覚変換器 (ViT) が普及し,グローバルな依存関係を捉えつつも,畳み込みの空間的局所性が欠如している。
そのため、CNNとViTを組み合わせたハイブリッドモデルは、両方のアーキテクチャの強みを組み合わせるために開発された。
しかし、そのようなハイブリッドモデルは解釈が困難であり、医療画像への応用を妨げている。
本稿では,網膜疾患検出のための解釈可能なハイブリッドCNN-Transformerアーキテクチャを提案する。
広く使われているViTのポストホックサリエンシ法とは異なり、本手法はモードの決定過程を直接反映した忠実で局所的なエビデンスマップを生成する。
色眼底画像を用いた疾患検出に焦点をあてた2つの医療課題について検討を行った。
我々のモデルはブラックボックスや解釈可能なモデルと比較して最先端の予測性能を達成し、クラス固有のスパースエビデンスマップを1つのフォワードパスで提供する。
コードは、https://github.com/kdjoumessi/Self-Explainable-CNN-Transformerで入手できる。
関連論文リスト
- Hands-on Evaluation of Visual Transformers for Object Recognition and Detection [0.0]
視覚変換器(ViT)と従来のCNNモデルを比較する。
ハイブリッドで階層的なトランスフォーマー、特にSwinとCvTは、精度と計算資源のバランスが強い。
全体としては、Vision Transformerは競争力があり、多くの場合、従来のCNNよりも優れています。
論文 参考訳(メタデータ) (2025-12-10T12:15:48Z) - $MV_{Hybrid}$: Improving Spatial Transcriptomics Prediction with Hybrid State Space-Vision Transformer Backbone in Pathology Vision Foundation Models [2.145454038929631]
ビジョントランスフォーマー(ViT)のバックボーンをベースとした病理学における現在のビジョン基礎モデル(VFM)は、臨床基準以下である。
状態空間モデル(SSM)とViTを組み合わせたハイブリッドバックボーンアーキテクチャであるMV_Hybrid$を紹介する。
LOSO評価では、$MV_Hybrid$57%高い相関性を示し、性能劣化は43%小さい。
論文 参考訳(メタデータ) (2025-08-01T07:23:45Z) - Soybean Disease Detection via Interpretable Hybrid CNN-GNN: Integrating MobileNetV2 and GraphSAGE with Cross-Modal Attention [1.927711700724334]
大豆の葉の病原体の検出は農業の生産性にとって重要であるが、視覚的に類似した症状と限定的な解釈可能性のために課題に直面している。
本稿では,局所化特徴抽出のためのMobileNetV2とリレーショナルモデリングのためのGraphSAGEを相乗化する,解釈可能なハイブリッドCNN-Graph Neural Network(GNN)フレームワークを提案する。
クロスモーダル解釈はGrad-CAMおよびEigen-CAMビジュアライゼーションを通じて実現され、熱マップを生成して疾患の流入領域をハイライトする。
論文 参考訳(メタデータ) (2025-03-03T08:12:09Z) - TBConvL-Net: A Hybrid Deep Learning Architecture for Robust Medical Image Segmentation [6.013821375459473]
医用画像セグメンテーションのための新しいディープラーニングアーキテクチャを提案する。
提案モデルでは,10の公開データセット上でのテクニックの現状に対して,一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-09-05T09:14:03Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation [10.20771849219059]
医用画像分割のための畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(CiT-Net)のハイブリッドアーキテクチャを提案する。
我々のCit-Netは、一般的なSOTA法よりも優れた医用画像セグメンテーション結果を提供する。
論文 参考訳(メタデータ) (2023-06-06T03:22:22Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - CNNs and Transformers Perceive Hybrid Images Similar to Humans [47.64219291655723]
深層学習視覚モデルの予測は、ハイブリッド画像の人間の知覚と定性的に一致していることを示す。
我々の結果は、畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformer)が、視覚野の腹側の流れにおける情報のフィードフォワードスイープのモデル化に長けているという仮説を支持する新たな証拠を提供する。
論文 参考訳(メタデータ) (2022-03-19T21:37:07Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Neural Cellular Automata Manifold [84.08170531451006]
ニューラルセルラーオートマタのニューラルネットワークアーキテクチャは、より大きなNNにカプセル化可能であることを示す。
これにより、NAAの多様体を符号化する新しいモデルを提案し、それぞれが異なる画像を生成することができる。
生物学的には、我々のアプローチは転写因子の役割を担い、細胞の分化を促進する特定のタンパク質への遺伝子マッピングを調節する。
論文 参考訳(メタデータ) (2020-06-22T11:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。