論文の概要: UNetVL: Enhancing 3D Medical Image Segmentation with Chebyshev KAN Powered Vision-LSTM
- arxiv url: http://arxiv.org/abs/2501.07017v1
- Date: Mon, 13 Jan 2025 02:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:17.043914
- Title: UNetVL: Enhancing 3D Medical Image Segmentation with Chebyshev KAN Powered Vision-LSTM
- Title(参考訳): UNetVL: Chebyshev Kan Powered Vision-LSTMによる3D医療画像セグメンテーションの強化
- Authors: Xuhui Guo, Tanmoy Dam, Rohan Dhamdhere, Gourav Modanwal, Anant Madabhushi,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)により,3次元医用画像セグメンテーションが著しく進展した。
これらの手法は、長距離依存の獲得と計算効率のバランスをとるのに苦労する。
時間情報処理の最近の進歩を生かした新しいアーキテクチャであるUNETVLを提案する。
- 参考スコア(独自算出の注目度): 2.1218451207400286
- License:
- Abstract: 3D medical image segmentation has progressed considerably due to Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs), yet these methods struggle to balance long-range dependency acquisition with computational efficiency. To address this challenge, we propose UNETVL (U-Net Vision-LSTM), a novel architecture that leverages recent advancements in temporal information processing. UNETVL incorporates Vision-LSTM (ViL) for improved scalability and memory functions, alongside an efficient Chebyshev Kolmogorov-Arnold Networks (KAN) to handle complex and long-range dependency patterns more effectively. We validated our method on the ACDC and AMOS2022 (post challenge Task 2) benchmark datasets, showing a significant improvement in mean Dice score compared to recent state-of-the-art approaches, especially over its predecessor, UNETR, with increases of 7.3% on ACDC and 15.6% on AMOS, respectively. Extensive ablation studies were conducted to demonstrate the impact of each component in UNETVL, providing a comprehensive understanding of its architecture. Our code is available at https://github.com/tgrex6/UNETVL, facilitating further research and applications in this domain.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)によって3次元の医用画像セグメンテーションは大幅に進歩しているが、これらの手法は長距離依存の獲得と計算効率のバランスをとるのに苦労している。
この課題に対処するために,最近の時間情報処理の進歩を生かした新しいアーキテクチャであるUNETVL(U-Net Vision-LSTM)を提案する。
UNETVLにはVision-LSTM (ViL) が組み込まれており、より効率的なChebyshev Kolmogorov-Arnold Networks (KAN) とともに、複雑で長距離の依存関係パターンをより効率的に扱うことができる。
ACDC と AMOS2022 (post Challenge Task 2) のベンチマークデータセット上で本手法の有効性を検証するとともに,最新の最先端アプローチである UNETR と比較して,平均Dice スコアが大幅に向上し,それぞれ ACDC が7.3%,AMOS が15.6% 向上した。
UNETVLにおける各コンポーネントの影響を実証するために、広範囲にわたるアブレーション研究を行い、そのアーキテクチャを包括的に理解した。
私たちのコードはhttps://github.com/tgrex6/UNETVLで公開されています。
関連論文リスト
- S3TU-Net: Structured Convolution and Superpixel Transformer for Lung Nodule Segmentation [5.2752693301728355]
マルチ次元空間コネクタとスーパーピクセルベースの視覚変換器を統合したセグメンテーションモデルS3TU-Netを提案する。
S3TU-NetはマルチビューCNN-Transformerハイブリッドアーキテクチャ上に構築されており、スーパーピクセルアルゴリズム、構造化重み付け、空間シフト技術が組み込まれている。
LIDC-IDRIデータセットの実験結果は、S3TU-Netがそれぞれ89.04%、90.73%、90.70%のDSC、精度、IoUを達成したことを示している。
論文 参考訳(メタデータ) (2024-11-19T15:00:18Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.0]
iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。
基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。
各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? [3.1777394653936937]
本稿では,CNNとVision-xLSTM(Vision-xLSTM)の統合について検討する。
ビジョン-xLSTMブロックは、CNNの機能マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
我々の主な目的は、Vision-xLSTMが医用画像セグメンテーションの適切なバックボーンを形成し、計算コストを削減して優れた性能を提供することである。
論文 参考訳(メタデータ) (2024-06-24T08:01:05Z) - Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain [48.440691680864745]
我々はLoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を利用して、U字型アーキテクチャに新しい特徴抽出器を統合する。
大規模ラベル付きデータセットの欠如を補うために,3次元画像に適した新しいSSL方式を提案する。
論文 参考訳(メタデータ) (2024-02-09T05:06:58Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Multi-Slice Dense-Sparse Learning for Efficient Liver and Tumor
Segmentation [4.150096314396549]
ディープ畳み込みニューラルネットワーク(DCNN)は2次元および3次元の医用画像セグメンテーションにおいて大きな成功を収めている。
そこで我々は,DCNNを正規化するための入力として,密接な隣接スライスと疎隣接スライスを抽出するデータの観点から,新しい密集スプリストレーニングフローを提案する。
また、ネットワークの観点から2.5Dの軽量nnU-Netを設計し、その効率を向上させるために深度的に分離可能な畳み込みを採用する。
論文 参考訳(メタデータ) (2021-08-15T15:29:48Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。