論文の概要: STA-Unet: Rethink the semantic redundant for Medical Imaging Segmentation
- arxiv url: http://arxiv.org/abs/2410.11578v1
- Date: Sun, 13 Oct 2024 07:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:15.281519
- Title: STA-Unet: Rethink the semantic redundant for Medical Imaging Segmentation
- Title(参考訳): STA-Unet:医療画像分割における意味的冗長性の再考
- Authors: Vamsi Krishna Vasa, Wenhui Zhu, Xiwen Chen, Peijie Qiu, Xuanzhao Dong, Yalin Wang,
- Abstract要約: スーパートークン注意(Super Token Attention, STA)機構は、スーパートークンをコンパクトな視覚表現として用い、ピクセル空間からトークン空間へのスーパーピクセルの概念を適応させる。
本研究では、豊富な情報を失うことなく冗長性を抑えるために、UNetアーキテクチャ(STA-UNet)にSTAモジュールを導入する。
4つの公開データセットの実験結果は、既存の最先端アーキテクチャよりもSTA-UNetの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 1.9526521731584066
- License:
- Abstract: In recent years, significant progress has been made in the medical image analysis domain using convolutional neural networks (CNNs). In particular, deep neural networks based on a U-shaped architecture (UNet) with skip connections have been adopted for several medical imaging tasks, including organ segmentation. Despite their great success, CNNs are not good at learning global or semantic features. Especially ones that require human-like reasoning to understand the context. Many UNet architectures attempted to adjust with the introduction of Transformer-based self-attention mechanisms, and notable gains in performance have been noted. However, the transformers are inherently flawed with redundancy to learn at shallow layers, which often leads to an increase in the computation of attention from the nearby pixels offering limited information. The recently introduced Super Token Attention (STA) mechanism adapts the concept of superpixels from pixel space to token space, using super tokens as compact visual representations. This approach tackles the redundancy by learning efficient global representations in vision transformers, especially for the shallow layers. In this work, we introduce the STA module in the UNet architecture (STA-UNet), to limit redundancy without losing rich information. Experimental results on four publicly available datasets demonstrate the superiority of STA-UNet over existing state-of-the-art architectures in terms of Dice score and IOU for organ segmentation tasks. The code is available at \url{https://github.com/Retinal-Research/STA-UNet}.
- Abstract(参考訳): 近年,畳み込みニューラルネットワーク(CNN)を用いた医用画像解析領域において,大きな進展が見られる。
特に、スキップ接続を持つU字型アーキテクチャ(UNet)に基づくディープニューラルネットワークは、臓器セグメンテーションを含むいくつかの医療画像タスクに採用されている。
彼らの大きな成功にもかかわらず、CNNはグローバル機能やセマンティック機能を学ぶのが得意ではない。
特に、文脈を理解するために人間のような推論を必要とするもの。
多くのUNetアーキテクチャはTransformerベースの自己アテンション機構を導入して調整を試みたが、性能の顕著な向上が指摘されている。
しかし、トランスは浅層で学ぶための冗長性に本質的に欠陥があるため、限られた情報を提供する近傍の画素からの注意の計算が増加することがしばしばある。
最近導入されたSuper Token Attention(STA)メカニズムは、ピクセル空間からトークン空間へのスーパーピクセルの概念に適応し、スーパートークンをコンパクトな視覚表現として利用する。
このアプローチは、特に浅い層において、視覚変換器の効率的なグローバル表現を学習することで冗長性に取り組む。
本研究では、豊富な情報を失うことなく冗長性を抑えるために、UNetアーキテクチャ(STA-UNet)にSTAモジュールを導入する。
4つの公開データセットに対する実験結果は、臓器分割タスクにおけるDiceスコアとIOUの観点から、既存の最先端アーキテクチャよりもSTA-UNetの方が優れていることを示す。
コードは \url{https://github.com/Retinal-Research/STA-UNet} で公開されている。
関連論文リスト
- BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - CEC-CNN: A Consecutive Expansion-Contraction Convolutional Network for
Very Small Resolution Medical Image Classification [0.8108972030676009]
深層・中層・浅層からのマルチスケール特徴を保存できる新しいCNNアーキテクチャを提案する。
膵管腺癌(PDAC)CTの超低解像度パッチのデータセットを用いて,我々のネットワークが最先端のアートモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-27T20:01:12Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Contextual Attention Network: Transformer Meets U-Net [0.0]
畳み込みニューラルネットワーク(CNN)はデファクトスタンダードとなり、医療画像セグメンテーションにおいて大きな成功を収めた。
しかし、CNNベースのメソッドは、長距離依存関係とグローバルコンテキスト接続を構築するのに失敗する。
最近の論文では、医療画像分割タスクにTransformerの変種を活用している。
論文 参考訳(メタデータ) (2022-03-02T21:10:24Z) - UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [6.646135062704341]
トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
論文 参考訳(メタデータ) (2021-07-02T00:56:27Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。