論文の概要: xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart
- arxiv url: http://arxiv.org/abs/2407.01530v2
- Date: Tue, 2 Jul 2024 15:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:11:58.683850
- Title: xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart
- Title(参考訳): xLSTM-UNetは、視覚LSTM(ViL)を用いた効果的な2次元および3次元医用画像分割バックボーンであり、Mamba Counterpartより優れている
- Authors: Tianrun Chen, Chaotao Ding, Lanyun Zhu, Tao Xu, Deyi Ji, Yan Wang, Ying Zang, Zejian Li,
- Abstract要約: 医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。
xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。
以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 13.812935743270517
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional Neural Networks (CNNs) and Vision Transformers (ViT) have been pivotal in biomedical image segmentation, yet their ability to manage long-range dependencies remains constrained by inherent locality and computational overhead. To overcome these challenges, in this technical report, we first propose xLSTM-UNet, a UNet structured deep learning neural network that leverages Vision-LSTM (xLSTM) as its backbone for medical image segmentation. xLSTM is a recently proposed as the successor of Long Short-Term Memory (LSTM) networks and have demonstrated superior performance compared to Transformers and State Space Models (SSMs) like Mamba in Neural Language Processing (NLP) and image classification (as demonstrated in Vision-LSTM, or ViL implementation). Here, xLSTM-UNet we designed extend the success in biomedical image segmentation domain. By integrating the local feature extraction strengths of convolutional layers with the long-range dependency capturing abilities of xLSTM, xLSTM-UNet offers a robust solution for comprehensive image analysis. We validate the efficacy of xLSTM-UNet through experiments. Our findings demonstrate that xLSTM-UNet consistently surpasses the performance of leading CNN-based, Transformer-based, and Mamba-based segmentation networks in multiple datasets in biomedical segmentation including organs in abdomen MRI, instruments in endoscopic images, and cells in microscopic images. With comprehensive experiments performed, this technical report highlights the potential of xLSTM-based architectures in advancing biomedical image analysis in both 2D and 3D. The code, models, and datasets are publicly available at http://tianrun-chen.github.io/xLSTM-UNet/
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、バイオメディカルなイメージセグメンテーションにおいて重要な役割を担っている。
これらの課題を克服するために、我々はまず、医療画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。
xLSTMは最近、Long Short-Term Memory (LSTM) ネットワークの後継として提案され、Mamba in Neural Language Processing (NLP)や画像分類(ViL実装で示されている)のようなTransformersやState Space Models (SSM)よりも優れた性能を示している。
そこで,xLSTM-UNetは,バイオメディカルイメージセグメンテーション領域の成功の延長を図った。
畳み込み層の局所的特徴抽出強度とxLSTMの長距離依存性キャプチャ能力を統合することで、xLSTM-UNetは包括的な画像解析のための堅牢なソリューションを提供する。
実験によりxLSTM-UNetの有効性を検証した。
以上の結果から,XLSTM-UNetは,腹部MRIの臓器,内視鏡画像の器具,顕微鏡画像の細胞を含む生体領域の複数のデータセットにおいて,CNNベース,トランスフォーマーベース,マンバベースセグメンテーションネットワークの性能を一貫して上回っていることが明らかとなった。
総合的な実験により, この技術報告は, 2次元および3次元の生体画像解析におけるxLSTMアーキテクチャの可能性を強調した。
コード、モデル、データセットはhttp://tianrun-chen.github.io/xLSTM-UNet/で公開されている。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - A Study on the Performance of U-Net Modifications in Retroperitoneal Tumor Segmentation [45.39707664801522]
後腹膜には、稀な良性および悪性型を含む様々な腫瘍があり、診断と治療の課題を引き起こす。
腫瘍径の推定は不規則な形状のため困難であり,手動分割は時間を要する。
本研究は,CNN,ViT,Mamba,xLSTMなどのU-Net拡張を,新しい社内CTデータセットと公開臓器セグメンテーションデータセットに基づいて評価する。
論文 参考訳(メタデータ) (2025-02-01T04:25:28Z) - XLSTM-HVED: Cross-Modal Brain Tumor Segmentation and MRI Reconstruction Method Using Vision XLSTM and Heteromodal Variational Encoder-Decoder [9.141615533517719]
我々は,XLSTM-HVEDモデルを導入し,ヘテロモーダルエンコーダ・デコーダ・フレームワークをVision XLSTMモジュールと統合し,欠落したMRIモダリティを再構築する。
このアプローチの主な革新は、モーダル機能の統合を改善する自己意識変動(SAVE)モジュールである。
BraTS 2024データセットを用いた実験では、モダリティが欠落している場合の処理において、既存の先進的手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-12-09T09:04:02Z) - Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? [3.1777394653936937]
本稿では,CNNとVision-xLSTM(Vision-xLSTM)の統合について検討する。
ビジョン-xLSTMブロックは、CNNの機能マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
我々の主な目的は、Vision-xLSTMが医用画像セグメンテーションの適切なバックボーンを形成し、計算コストを削減して優れた性能を提供することである。
論文 参考訳(メタデータ) (2024-06-24T08:01:05Z) - Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T08:01:28Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - VM-UNet: Vision Mamba UNet for Medical Image Segmentation [2.3876474175791302]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。
我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-04T13:37:21Z) - U-Mamba: Enhancing Long-range Dependency for Biomedical Image
Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。
ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。
我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文 参考訳(メタデータ) (2024-01-09T18:53:20Z) - Learning from partially labeled data for multi-organ and tumor
segmentation [102.55303521877933]
本稿では,トランスフォーマーに基づく動的オンデマンドネットワーク(TransDoDNet)を提案する。
動的ヘッドにより、ネットワークは複数のセグメンテーションタスクを柔軟に達成することができる。
我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumorベンチマークを作成し、他の競合相手よりもTransDoDNetの方が優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-13T13:03:09Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。