論文の概要: MEW-UNet: Multi-axis representation learning in frequency domain for
medical image segmentation
- arxiv url: http://arxiv.org/abs/2210.14007v1
- Date: Tue, 25 Oct 2022 13:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:42:00.527146
- Title: MEW-UNet: Multi-axis representation learning in frequency domain for
medical image segmentation
- Title(参考訳): MEW-UNet:医療画像分割のための周波数領域における多軸表現学習
- Authors: Jiacheng Ruan, Mingye Xie, Suncheng Xiang, Ting Liu, Yuzhuo Fu
- Abstract要約: 医療画像セグメンテーション(MIS)のためのU字型アーキテクチャに基づく多軸外部重み付きUNet(MEW-UNet)を提案する。
具体的には、入力特徴の3つの軸にフーリエ変換を行い、周波数領域の外部重みを割り当てる。
4つのデータセットでモデルを評価し、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 13.456935850832565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Visual Transformer (ViT) has been widely used in various fields of
computer vision due to applying self-attention mechanism in the spatial domain
to modeling global knowledge. Especially in medical image segmentation (MIS),
many works are devoted to combining ViT and CNN, and even some works directly
utilize pure ViT-based models. However, recent works improved models in the
aspect of spatial domain while ignoring the importance of frequency domain
information. Therefore, we propose Multi-axis External Weights UNet (MEW-UNet)
for MIS based on the U-shape architecture by replacing self-attention in ViT
with our Multi-axis External Weights block. Specifically, our block performs a
Fourier transform on the three axes of the input feature and assigns the
external weight in the frequency domain, which is generated by our Weights
Generator. Then, an inverse Fourier transform is performed to change the
features back to the spatial domain. We evaluate our model on four datasets and
achieve state-of-the-art performances. In particular, on the Synapse dataset,
our method outperforms MT-UNet by 10.15mm in terms of HD95. Code is available
at https://github.com/JCruan519/MEW-UNet.
- Abstract(参考訳): 近年,ビジュアルトランスフォーマー (ViT) は空間領域における自己認識機構をグローバルな知識のモデリングに応用するため,コンピュータビジョンの様々な分野で広く利用されている。
特に医療画像セグメンテーション(MIS)では、多くの作品がViTとCNNの組み合わせに特化しており、一部の作品でも純粋なViTベースのモデルを直接活用している。
しかし、近年の研究では、周波数領域情報の重要性を無視しつつ、空間領域の側面のモデルを改善している。
そこで本稿では,VITにおける自己注意をMISのマルチ軸外重みブロックに置き換えることで,U字型アーキテクチャに基づくMIS用マルチ軸外重みUNet(MEW-UNet)を提案する。
具体的には、入力特徴の3つの軸にフーリエ変換を行い、重み発生器によって生成される周波数領域の外部重みを割り当てる。
そして、逆フーリエ変換を行い、特徴を空間領域に戻す。
このモデルを4つのデータセットで評価し,最先端のパフォーマンスを実現する。
特にSynapseデータセットでは,HD95でMT-UNetを10.15mm上回っている。
コードはhttps://github.com/JCruan519/MEW-UNetで入手できる。
関連論文リスト
- Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis [9.969451740838418]
時系列解析のためのコンパクトで強力なソリューションであるニューラルフーリエモデリング(NFM)を導入する。
NFM はフーリエ変換 (FT) の2つの重要な性質 (i) 有限長時系列をフーリエ領域の関数としてモデル化する能力 (ii) フーリエ領域内のデータ操作の能力 (ii) に基礎を置いている。
NFMは幅広いタスクで最先端のパフォーマンスを達成しており、テスト時にこれまで見つからなかったサンプリングレートを持つ時系列シナリオに挑戦する。
論文 参考訳(メタデータ) (2024-10-07T02:39:55Z) - Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:01:19Z) - Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation [5.6980032783048316]
U字型アーキテクチャに基づくMEW-UNet(Multi-axis external Weights UNet)を提案する。
我々は,Synapse,ACDC,ISIC17,ISIC18の4つのデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2023-12-28T14:12:31Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Deep Fourier Up-Sampling [100.59885545206744]
フーリエ領域のアップサンプリングは、そのような局所的な性質に従わないため、より難しい。
これらの問題を解決するために理論的に健全なDeep Fourier Up-Sampling (FourierUp)を提案する。
論文 参考訳(メタデータ) (2022-10-11T06:17:31Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Fourier Disentangled Space-Time Attention for Aerial Video Recognition [54.80846279175762]
本稿では,UAVビデオ行動認識のためのFAR(Fourier Activity Recognition)アルゴリズムを提案する。
我々の定式化は、人間のエージェントを背景から自然に分離するために、新しいフーリエオブジェクト・ディコンタングルメント法を用いています。
我々はUAV Human RGB、UAV Human Night、Drone Action、NEC Droneを含む複数のUAVデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-21T01:24:53Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。