論文の概要: MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.18823v1
- Date: Sat, 24 May 2025 18:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.682202
- Title: MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation
- Title(参考訳): MSLAU-Net:医療画像セグメンテーションのためのHybird CNN変換ネットワーク
- Authors: Libin Lan, Yanxin Li, Xiaojuan Liu, Juan Zhou, Jianxun Zhang, Nannan Huang, Yudong Zhang,
- Abstract要約: CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。
両パラダイムの長所を統合した新しいハイブリッドCNN-Transformerアーキテクチャ MSLAU-Netを提案する。
提案したMSLAU-Netには,2つの重要なアイデアが組み込まれている。まず,医療画像からマルチスケール特徴を効率的に抽出する,マルチスケール線形注意(multi-Scale Linear Attention)が導入されている。
第二に、マルチレベル特徴集約を行い、空間分解能を復元するトップダウン特徴集約機構を採用する。
- 参考スコア(独自算出の注目度): 7.826754189244901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both CNN-based and Transformer-based methods have achieved remarkable success in medical image segmentation tasks. However, CNN-based methods struggle to effectively capture global contextual information due to the inherent limitations of convolution operations. Meanwhile, Transformer-based methods suffer from insufficient local feature modeling and face challenges related to the high computational complexity caused by the self-attention mechanism. To address these limitations, we propose a novel hybrid CNN-Transformer architecture, named MSLAU-Net, which integrates the strengths of both paradigms. The proposed MSLAU-Net incorporates two key ideas. First, it introduces Multi-Scale Linear Attention, designed to efficiently extract multi-scale features from medical images while modeling long-range dependencies with low computational complexity. Second, it adopts a top-down feature aggregation mechanism, which performs multi-level feature aggregation and restores spatial resolution using a lightweight structure. Extensive experiments conducted on benchmark datasets covering three imaging modalities demonstrate that the proposed MSLAU-Net outperforms other state-of-the-art methods on nearly all evaluation metrics, validating the superiority, effectiveness, and robustness of our approach. Our code is available at https://github.com/Monsoon49/MSLAU-Net.
- Abstract(参考訳): CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。
しかし、CNNベースの手法は、畳み込み操作の固有の制限のため、グローバルな文脈情報を効果的に捉えるのに苦労する。
一方、トランスフォーマーに基づく手法は、局所的な特徴モデリングが不十分で、自己認識機構によって引き起こされる高い計算複雑性に関連する課題に直面している。
これらの制約に対処するため,MSLAU-NetというハイブリッドCNN-Transformerアーキテクチャを提案する。
提案されたMSLAU-Netには2つの重要なアイデアが組み込まれている。
まず、マルチスケール線形注意(Multi-Scale Linear Attention)を導入し、計算複雑性の低い長距離依存関係をモデル化しながら、医療画像からマルチスケール特徴を効率的に抽出するように設計されている。
第二に、マルチレベル特徴集約を実行するトップダウン特徴集約機構を採用し、軽量な構造を用いて空間分解能を復元する。
3つの画像モダリティを網羅したベンチマーク実験により、提案したMSLAU-Netは、ほぼ全ての評価指標において、他の最先端手法よりも優れ、我々のアプローチの優越性、有効性、堅牢性を検証した。
私たちのコードはhttps://github.com/Monsoon49/MSLAU-Net.comで利用可能です。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation [0.12499537119440242]
皮膚がんのセグメンテーションは、医療画像解析において重要な課題である。
MobileUNETRは、CNNとTransformerの両方のパフォーマンス制約を克服することを目指している。
MobileUNETRは300万のパラメータと1.3 GFLOPの計算複雑性で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-04T20:23:37Z) - Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。
この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。
本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文 参考訳(メタデータ) (2024-02-11T17:09:21Z) - Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain [46.44049019428938]
我々はLoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を利用して、U字型アーキテクチャに新しい特徴抽出器を統合する。
大規模ラベル付きデータセットの欠如を補うために,3次元画像に適した新しいSSL方式を提案する。
論文 参考訳(メタデータ) (2024-02-09T05:06:58Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。