論文の概要: CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Heterogeneous Medical Images
- arxiv url: http://arxiv.org/abs/2501.03629v2
- Date: Wed, 16 Jul 2025 09:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 14:40:09.212848
- Title: CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Heterogeneous Medical Images
- Title(参考訳): CFFormer:異種医用画像の分割改善のためのCNN-transformer Channel Attentionと空間的特徴融合
- Authors: Jiaxuan Li, Qing Xu, Xiangjian He, Ziyu Liu, Daokun Zhang, Ruili Wang, Rong Qu, Guoping Qiu,
- Abstract要約: 医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
医用撮像装置の限界により、医用画像は大きな異質性を示し、セグメンテーションの課題を提起する。
本稿では,効果的なチャネル特徴抽出を利用するCFFormerと呼ばれるハイブリッドCNN-Transformerモデルを提案する。
- 参考スコア(独自算出の注目度): 29.68616115427831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation plays an important role in computer-aided diagnosis. Existing methods mainly utilize spatial attention to highlight the region of interest. However, due to limitations of medical imaging devices, medical images exhibit significant heterogeneity, posing challenges for segmentation. Ultrasound images, for instance, often suffer from speckle noise, low resolution, and poor contrast between target tissues and background, which may lead to inaccurate boundary delineation. To address these challenges caused by heterogeneous image quality, we propose a hybrid CNN-Transformer model,called CFFormer, which leverages effective channel feature extraction to enhance the model' s ability to accurately identify tissue regions by capturing rich contextual information. The proposed architecture contains two key components: the Cross Feature Channel Attention (CFCA) module and the X-Spatial Feature Fusion (XFF) module. The model incorporates dual encoders, with the CNN encoder focusing on capturing local features and the Transformer encoder modeling global features. The CFCA module filters and facilitates interactions between the channel features from the two encoders, while the XFF module effectively reduces the significant semantic information differences in spatial features, enabling a smooth and cohesive spatial feature fusion. We evaluate our model across eight datasets covering five modalities to test its generalization capability. Experimental results demonstrate that our model outperforms current state-of-the-art methods and maintains accurate tissue region segmentation across heterogeneous medical image datasets. The code is available at https://github.com/JiaxuanFelix/CFFormer.
- Abstract(参考訳): 医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
既存の手法は主に空間的注意を利用して関心領域をハイライトする。
しかし、医用撮像装置の限界により、医用画像は大きな異質性を示し、セグメンテーションの課題を提起する。
例えば超音波画像は、しばしばスペックルノイズ、低解像度、標的組織と背景のコントラストに悩まされ、不正確な境界線化につながる可能性がある。
不均一な画像品質に起因するこれらの課題に対処するため,CFFormerと呼ばれるハイブリッドCNN-Transformerモデルを提案する。
提案アーキテクチャには,Cross Feature Channel Attention (CFCA) モジュールと X-Spatial Feature Fusion (XFF) モジュールの2つの重要なコンポーネントが含まれている。
このモデルにはデュアルエンコーダが組み込まれており、CNNエンコーダはローカル特徴のキャプチャとグローバル特徴のトランスフォーマーエンコーダモデリングに重点を置いている。
CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし促進する一方、XFFモジュールは空間的特徴の有意な意味情報差を効果的に低減し、スムーズで凝集的な空間的特徴融合を可能にする。
我々は,その一般化能力をテストするために,5つのモダリティをカバーする8つのデータセットにまたがるモデルを評価した。
実験結果から,本モデルは現在の最先端手法より優れ,異種医用画像データセット間の組織領域の正確なセグメンテーションを維持していることが示された。
コードはhttps://github.com/JiaxuanFelix/CFFormer.comで入手できる。
関連論文リスト
- InceptionMamba: Efficient Multi-Stage Feature Enhancement with Selective State Space Model for Microscopic Medical Image Segmentation [15.666926528144202]
InceptionMambaという,多段階のリッチな機能をエンコードするセグメンテーションタスクのための効率的なフレームワークを提案する。
我々は,低周波領域と高周波領域の両方を捕捉し,多段特徴を豊かにするためにセマンティック・キューを利用する。
本モデルでは,2つの挑戦的微視的セグメンテーションデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-13T20:25:12Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - TransResNet: Integrating the Strengths of ViTs and CNNs for High Resolution Medical Image Segmentation via Feature Grafting [6.987177704136503]
医用画像領域で高解像度画像が好ましいのは、基礎となる方法の診断能力を大幅に向上させるためである。
医用画像セグメンテーションのための既存のディープラーニング技術のほとんどは、空間次元が小さい入力画像に最適化されており、高解像度画像では不十分である。
我々はTransResNetという並列処理アーキテクチャを提案し、TransformerとCNNを並列的に組み合わせ、マルチ解像度画像から特徴を独立して抽出する。
論文 参考訳(メタデータ) (2024-10-01T18:22:34Z) - AFFSegNet: Adaptive Feature Fusion Segmentation Network for Microtumors and Multi-Organ Segmentation [31.97835089989928]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。
本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。
多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-12T06:25:44Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical
Image Segmentation [7.720152925974362]
MCPA(Multiscale Cross Perceptron Attention Network)と呼ばれる2次元医用画像分割モデルを提案する。
MCPAは、エンコーダ、デコーダ、クロスパーセプトロンの3つの主要コンポーネントで構成されている。
提案したMCPAモデルを,様々なタスクやデバイスから利用可能ないくつかの医用画像データセット上で評価した。
論文 参考訳(メタデータ) (2023-07-27T02:18:12Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive
Feature Learning in Speech Enhancement [0.2538209532048866]
本稿では、時間周波数(T-F)ドメイン音声強調ネットワーク(DPCFCS-Net)を提案する。
改良された高密度接続ブロック、デュアルパスモジュール、畳み込み拡張トランス(コンフォーマー)、チャンネルアテンション、空間アテンションが組み込まれている。
従来のモデルと比較して,提案モデルはより効率的なエンコーダデコーダを備え,包括的特徴を学習することができる。
論文 参考訳(メタデータ) (2023-06-09T12:52:01Z) - Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for
Intracranial Hemorrhage Detection [0.7734726150561088]
ScopeformerはCT画像における頭蓋内出血分類のための新しいマルチCNN-ViTモデルである。
本稿では,CNN生成特徴間の冗長性を低減し,ViTの入力サイズを制御するための効果的な特徴投影法を提案する。
様々なスコープフォーマーモデルによる実験により、モデルの性能は特徴抽出器で使用される畳み込みブロックの数に比例することが示された。
論文 参考訳(メタデータ) (2023-02-01T03:51:27Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。