論文の概要: Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2212.09263v1
- Date: Mon, 19 Dec 2022 06:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:33:42.396174
- Title: Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation
- Title(参考訳): 医用画像分割のためのfocal-unet: unet様焦点変調
- Authors: MohammadReza Naderi, MohammadHossein Givkashi, Fatemeh Piri, Nader
Karimi, Shadrokh Samavi
- Abstract要約: 本稿では,新たに導入された焦点変調機構の助けを借りて,医用画像セグメンテーションのための新しいU字型アーキテクチャを提案する。
局所的および大域的特徴を集約する焦点モジュールの能力により、我々のモデルは変換器の広い受容場を同時に得ることができる。
- 参考スコア(独自算出の注目度): 8.75217589103206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, many attempts have been made to construct a transformer base
U-shaped architecture, and new methods have been proposed that outperformed
CNN-based rivals. However, serious problems such as blockiness and cropped
edges in predicted masks remain because of transformers' patch partitioning
operations. In this work, we propose a new U-shaped architecture for medical
image segmentation with the help of the newly introduced focal modulation
mechanism. The proposed architecture has asymmetric depths for the encoder and
decoder. Due to the ability of the focal module to aggregate local and global
features, our model could simultaneously benefit the wide receptive field of
transformers and local viewing of CNNs. This helps the proposed method balance
the local and global feature usage to outperform one of the most powerful
transformer-based U-shaped models called Swin-UNet. We achieved a 1.68% higher
DICE score and a 0.89 better HD metric on the Synapse dataset. Also, with
extremely limited data, we had a 4.25% higher DICE score on the NeoPolyp
dataset. Our implementations are available at:
https://github.com/givkashi/Focal-UNet
- Abstract(参考訳): 近年,変圧器ベースのU字型アーキテクチャの構築が試みられ,CNNベースのライバルよりも優れた新たな手法が提案されている。
しかし、予測マスクのブロック性やトリミングエッジといった深刻な問題は、トランスフォーマーのパッチ分割操作のために残っている。
本稿では,新たに導入された焦点変調機構を用いて,医用画像分割のための新しいu字型アーキテクチャを提案する。
提案アーキテクチャはエンコーダとデコーダの非対称深さを有する。
局所的な特徴とグローバルな特徴を集約する焦点モジュールの能力により、我々のモデルはトランスフォーマーの広い受容領域とCNNの局所的な視聴を同時に得ることができる。
これにより,提案手法は,swain-unetと呼ばれる最も強力なトランスフォーマー型u字型モデルに匹敵する,局所的およびグローバル的特徴量のバランスをとることができる。
我々はSynapseデータセットで1.68%高いDICEスコアと0.89のHDメトリックを達成した。
また、非常に限られたデータでは、NeoPolypデータセットでDICEスコアが4.25%高かった。
私たちの実装は、https://github.com/givkashi/Focal-UNetで利用可能です。
関連論文リスト
- HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - MECPformer: Multi-estimations Complementary Patch with CNN-Transformers
for Weakly Supervised Semantic Segmentation [8.975330500836057]
マルチ推定補間パッチ(MECP)戦略とアダプティブ・コンフリクト・モジュール(ACM)を用いた簡易かつ効果的な手法を提案する。
さらに、ACMは競合するピクセルを適応的に除去し、ネットワークの自己学習能力を利用して潜在的なターゲット情報をマイニングする。
当社のMECPformerはPASCAL VOC 2012で72.0% mIoU、MS COCO 2014データセットで42.4%に達した。
論文 参考訳(メタデータ) (2023-03-19T15:42:45Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation [11.513054537848227]
そこで我々は,SideRTと呼ばれる純粋なトランスフォーマーアーキテクチャを提案する。
これは、トランスフォーマーベースのネットワークが、単一画像深度推定フィールドにおいて、リアルタイムに最先端の性能が得られることを示す最初の研究である。
論文 参考訳(メタデータ) (2022-04-29T05:46:20Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。