論文の概要: Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation?
- arxiv url: http://arxiv.org/abs/2406.16993v2
- Date: Wed, 18 Dec 2024 07:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:18.235076
- Title: Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation?
- Title(参考訳): Vision xLSTM Embedded UNetは医療用3次元画像のセグメンテーションで信頼性が高いか?
- Authors: Pallabi Dutta, Soham Bose, Swalpa Kumar Roy, Sushmita Mitra,
- Abstract要約: 本稿では,CNNとVision-xLSTM(Vision-xLSTM)の統合について検討する。
ビジョン-xLSTMブロックは、CNNの機能マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
我々の主な目的は、Vision-xLSTMが医用画像セグメンテーションの適切なバックボーンを形成し、計算コストを削減して優れた性能を提供することである。
- 参考スコア(独自算出の注目度): 3.1777394653936937
- License:
- Abstract: The development of efficient segmentation strategies for medical images has evolved from its initial dependence on Convolutional Neural Networks (CNNs) to the current investigation of hybrid models that combine CNNs with Vision Transformers. There is an increasing focus on creating architectures that are both high-performance and computationally efficient, able to be deployed on remote systems with limited resources. Although transformers can capture global dependencies in the input space, they face challenges from the corresponding high computational and storage expenses involved. This paper investigates the integration of CNNs with Vision Extended Long Short-Term Memory (Vision-xLSTM)s by introducing the novel {\it \textbf{U-VixLSTM}}. The Vision-xLSTM blocks capture temporal and global relationships within the patches, as extracted from the CNN feature maps. The convolutional feature reconstruction path upsamples the output volume from the Vision-xLSTM blocks, to produce the segmentation output. Our primary objective is to propose that Vision-xLSTM forms an appropriate backbone for medical image segmentation, offering excellent performance with reduced computational costs. The U-VixLSTM exhibits superior performance, compared to the state-of-the-art networks in the publicly available Synapse, ISIC and ACDC datasets. Code provided: https://github.com/duttapallabi2907/U-VixLSTM
- Abstract(参考訳): 医用画像の効率的なセグメンテーション戦略の開発は、畳み込みニューラルネットワーク(CNN)への初期の依存から、CNNとビジョントランスフォーマーを組み合わせたハイブリッドモデルの研究へと発展してきた。
パフォーマンスと計算効率の両方に重点を置いており、限られたリソースでリモートシステムにデプロイすることができる。
トランスフォーマーは入力空間におけるグローバルな依存関係をキャプチャできるが、対応する高い計算とストレージ費用の課題に直面している。
本稿では,CNNとVision-xLSTM(Vision-xLSTM)の統合について,小説 {\it \textbf{U-VixLSTM}}を紹介した。
Vision-xLSTMブロックは、CNNの機能マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
畳み込み特徴再構成パスは、Vision-xLSTMブロックから出力ボリュームを増幅し、セグメンテーション出力を生成する。
我々の主な目的は、Vision-xLSTMが医用画像セグメンテーションの適切なバックボーンを形成し、計算コストを削減して優れた性能を提供することである。
U-VixLSTMは、公開されているSynapse、ISIC、ACDCデータセットの最先端ネットワークと比較して、優れたパフォーマンスを示している。
コード提供:https://github.com/duttapallabi2907/U-VixLSTM
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - A Study on the Performance of U-Net Modifications in Retroperitoneal Tumor Segmentation [45.39707664801522]
後腹膜には、稀な良性および悪性型を含む様々な腫瘍があり、診断と治療の課題を引き起こす。
腫瘍径の推定は不規則な形状のため困難であり,手動分割は時間を要する。
本研究は,CNN,ViT,Mamba,xLSTMなどのU-Net拡張を,新しい社内CTデータセットと公開臓器セグメンテーションデータセットに基づいて評価する。
論文 参考訳(メタデータ) (2025-02-01T04:25:28Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。
xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。
以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:59:54Z) - Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T08:01:28Z) - VM-UNet: Vision Mamba UNet for Medical Image Segmentation [2.3876474175791302]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。
我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-04T13:37:21Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。