論文の概要: CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images
- arxiv url: http://arxiv.org/abs/2501.03629v1
- Date: Tue, 07 Jan 2025 08:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:32.841784
- Title: CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images
- Title(参考訳): CFFormer:低画質医用画像の分割改善のためのCNN-transformer Channel Attentionと空間的特徴融合
- Authors: Jiaxuan Li, Qing Xu, Xiangjian He, Ziyu Liu, Daokun Zhang, Ruili Wang, Rong Qu, Guoping Qiu,
- Abstract要約: CNN-Transformerモデルは、ローカル情報と長距離依存の両方を効率的にモデル化するCNNとTransformerの利点を組み合わせるように設計されている。
本稿では,Cross Feature Channel Attention (CFCA)モジュールとX-Spatial Feature Fusion (XFF)モジュールを紹介する。
CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし、促進する一方、XFFモジュールは空間的特徴の有意な意味情報の違いを効果的に軽減する。
- 参考スコア(独自算出の注目度): 29.68616115427831
- License:
- Abstract: Hybrid CNN-Transformer models are designed to combine the advantages of Convolutional Neural Networks (CNNs) and Transformers to efficiently model both local information and long-range dependencies. However, most research tends to focus on integrating the spatial features of CNNs and Transformers, while overlooking the critical importance of channel features. This is particularly significant for model performance in low-quality medical image segmentation. Effective channel feature extraction can significantly enhance the model's ability to capture contextual information and improve its representation capabilities. To address this issue, we propose a hybrid CNN-Transformer model, CFFormer, and introduce two modules: the Cross Feature Channel Attention (CFCA) module and the X-Spatial Feature Fusion (XFF) module. The model incorporates dual encoders, with the CNN encoder focusing on capturing local features and the Transformer encoder modeling global features. The CFCA module filters and facilitates interactions between the channel features from the two encoders, while the XFF module effectively reduces the significant semantic information differences in spatial features, enabling a smooth and cohesive spatial feature fusion. We evaluate our model across eight datasets covering five modalities to test its generalization capability. Experimental results demonstrate that our model outperforms current state-of-the-art (SOTA) methods, with particularly superior performance on datasets characterized by blurry boundaries and low contrast.
- Abstract(参考訳): ハイブリッドCNN-Transformerモデルは、ローカル情報と長距離依存の両方を効率的にモデル化するために、畳み込みニューラルネットワーク(CNN)とトランスフォーマーの利点を組み合わせるように設計されている。
しかし、ほとんどの研究はCNNとトランスフォーマーの空間的特徴の統合に重点を置いている。
これは、低品質の医用画像分割におけるモデル性能において特に重要である。
効果的なチャネル特徴抽出は、コンテキスト情報をキャプチャし、表現能力を向上するモデルの能力を著しく向上させる。
そこで我々は,CFCAモジュールとX-Spatial Feature Fusion(XFF)モジュールの2つのモジュールについて,ハイブリッドCNN-TransformerモデルCFFormerを提案する。
このモデルにはデュアルエンコーダが組み込まれており、CNNエンコーダはローカルな特徴を捉え、Transformerエンコーダはグローバルな特徴をモデル化する。
CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし促進する一方、XFFモジュールは空間的特徴の有意な意味情報差を効果的に低減し、スムーズで凝集的な空間的特徴融合を可能にする。
我々は,その一般化能力をテストするために,5つのモダリティをカバーする8つのデータセットにまたがるモデルを評価した。
実験結果から,本モデルは現状のSOTA法よりも優れており,特にぼやけた境界と低コントラストを特徴とするデータセットの性能が優れていることがわかった。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive
Feature Learning in Speech Enhancement [0.2538209532048866]
本稿では、時間周波数(T-F)ドメイン音声強調ネットワーク(DPCFCS-Net)を提案する。
改良された高密度接続ブロック、デュアルパスモジュール、畳み込み拡張トランス(コンフォーマー)、チャンネルアテンション、空間アテンションが組み込まれている。
従来のモデルと比較して,提案モデルはより効率的なエンコーダデコーダを備え,包括的特徴を学習することができる。
論文 参考訳(メタデータ) (2023-06-09T12:52:01Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。