論文の概要: LM-Net: A Light-weight and Multi-scale Network for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2501.03838v1
- Date: Tue, 07 Jan 2025 14:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:23.912741
- Title: LM-Net: A Light-weight and Multi-scale Network for Medical Image Segmentation
- Title(参考訳): LM-Net:医療画像セグメンテーションのための軽量・マルチスケールネットワーク
- Authors: Zhenkun Lu, Chaoyin She, Wei Wang, Qinghua Huang,
- Abstract要約: 現在の医療画像セグメンテーションアプローチは、マルチスケール情報を深く探究するのに限界がある。
本稿では,セグメンテーションの精度を高めるために,新しい軽量マルチスケールアーキテクチャ (LM-Net) を提案する。
提案モデルでは,4.66GのFLOPと5.4Mのパラメータしか必要とせず,従来の手法を超越した最新結果が得られる。
- 参考スコア(独自算出の注目度): 7.963884317408774
- License:
- Abstract: Current medical image segmentation approaches have limitations in deeply exploring multi-scale information and effectively combining local detail textures with global contextual semantic information. This results in over-segmentation, under-segmentation, and blurred segmentation boundaries. To tackle these challenges, we explore multi-scale feature representations from different perspectives, proposing a novel, lightweight, and multi-scale architecture (LM-Net) that integrates advantages of both Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) to enhance segmentation accuracy. LM-Net employs a lightweight multi-branch module to capture multi-scale features at the same level. Furthermore, we introduce two modules to concurrently capture local detail textures and global semantics with multi-scale features at different levels: the Local Feature Transformer (LFT) and Global Feature Transformer (GFT). The LFT integrates local window self-attention to capture local detail textures, while the GFT leverages global self-attention to capture global contextual semantics. By combining these modules, our model achieves complementarity between local and global representations, alleviating the problem of blurred segmentation boundaries in medical image segmentation. To evaluate the feasibility of LM-Net, extensive experiments have been conducted on three publicly available datasets with different modalities. Our proposed model achieves state-of-the-art results, surpassing previous methods, while only requiring 4.66G FLOPs and 5.4M parameters. These state-of-the-art results on three datasets with different modalities demonstrate the effectiveness and adaptability of our proposed LM-Net for various medical image segmentation tasks.
- Abstract(参考訳): 現在の医用画像セグメンテーションアプローチは、マルチスケール情報を深く探求し、局所的な細部テクスチャとグローバルな文脈意味情報とを効果的に組み合わせることに限界がある。
この結果、過剰セグメンテーション、過セグメンテーション、およびぼやけたセグメンテーション境界が生じる。
これらの課題に対処するため、我々は、分割精度を高めるために、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方の利点を統合する、新しい軽量かつマルチスケールアーキテクチャ(LM-Net)を提案する。
LM-Netは軽量なマルチブランチモジュールを使用して、マルチスケール機能を同じレベルでキャプチャする。
さらに,局所特徴変換器 (LFT) とグローバル特徴変換器 (GFT) の2つのモジュールを導入することで,局所的詳細テクスチャとグローバルなセマンティクスを異なるレベルで同時にキャプチャする。
LFTはローカルウィンドウの自己アテンションを統合し、局所的な詳細テクスチャをキャプチャし、GFTはグローバルな自己アテンションを利用してグローバルなコンテキストセマンティクスをキャプチャする。
これらのモジュールを組み合わせることで,局所的表現と大域的表現の相補性を実現し,医用画像分割における曖昧なセグメンテーション境界の問題を軽減する。
LM-Netの実現可能性を評価するため、異なるモダリティを持つ3つの公開データセットに対して広範な実験が行われた。
提案モデルでは,4.66GのFLOPと5.4Mのパラメータしか必要とせず,従来の手法を超越した最新結果が得られる。
各種画像分割作業におけるLM-Netの有効性と適応性を示した。
関連論文リスト
- INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - LACV-Net: Semantic Segmentation of Large-Scale Point Cloud Scene via
Local Adaptive and Comprehensive VLAD [13.907586081922345]
本稿では,大規模クラウドセマンティックセグメンテーションのための,LACV-Netと呼ばれるエンドツーエンドのディープニューラルネットワークを提案する。
提案するネットワークは,1) 局所適応的特徴拡張モジュール(LAFA) を適応的に学習し,局所的文脈を拡張させる,2) 局所的特徴を多層,マルチスケール,マルチ解像度で融合させて包括的グローバル記述ベクトルを表現する,包括的VLADモジュール,3) LAFAモジュールからの適応的重みを制限してセグメント境界を効果的に最適化する集約損失関数を含む。
論文 参考訳(メタデータ) (2022-10-12T02:11:00Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR)
Segmentation [2.6770199357488242]
我々はOARFocalFuseNetと呼ばれる新しいOARセグメンテーションフレームワークを提案する。
マルチスケールの特徴を融合させ、複数のスケールにわたるグローバルローカルコンテキストのキャプチャに焦点変調を用いる。
OARFocalFuseNetはOpenKBPデータセット上で0.7995のダイス係数と5.1435のハウスドルフ距離を得た。
論文 参考訳(メタデータ) (2022-08-15T19:40:18Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。