論文の概要: ScaleFormer: Revisiting the Transformer-based Backbones from a
Scale-wise Perspective for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2207.14552v1
- Date: Fri, 29 Jul 2022 08:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:55:36.265002
- Title: ScaleFormer: Revisiting the Transformer-based Backbones from a
Scale-wise Perspective for Medical Image Segmentation
- Title(参考訳): ScaleFormer: 医療画像セグメンテーションのスケールワイズから見たトランスフォーマーベースのバックボーンの再検討
- Authors: Huimin Huang, Shiao Xie1, Lanfen Lin, Yutaro Iwamoto, Xianhua Han,
Yen-Wei Chen, Ruofeng Tong
- Abstract要約: 医用画像セグメンテーションのための新しいビジョントランスフォーマーベースのバックボーンであるScaleFormerを提案する。
スケールワイド・スケール・イン・スケール・トランスフォーマーは,CNNをベースとした局所的特徴と,トランスフォーマーをベースとしたグローバルなキューをそれぞれのスケールで組み合わせるように設計されている。
簡易かつ効果的な空間認識型大規模変圧器は,複数のスケールで接続領域間で相互作用するように設計されている。
- 参考スコア(独自算出の注目度): 16.995195979992015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a variety of vision transformers have been developed as their
capability of modeling long-range dependency. In current transformer-based
backbones for medical image segmentation, convolutional layers were replaced
with pure transformers, or transformers were added to the deepest encoder to
learn global context. However, there are mainly two challenges in a scale-wise
perspective: (1) intra-scale problem: the existing methods lacked in extracting
local-global cues in each scale, which may impact the signal propagation of
small objects; (2) inter-scale problem: the existing methods failed to explore
distinctive information from multiple scales, which may hinder the
representation learning from objects with widely variable size, shape and
location. To address these limitations, we propose a novel backbone, namely
ScaleFormer, with two appealing designs: (1) A scale-wise intra-scale
transformer is designed to couple the CNN-based local features with the
transformer-based global cues in each scale, where the row-wise and column-wise
global dependencies can be extracted by a lightweight Dual-Axis MSA. (2) A
simple and effective spatial-aware inter-scale transformer is designed to
interact among consensual regions in multiple scales, which can highlight the
cross-scale dependency and resolve the complex scale variations. Experimental
results on different benchmarks demonstrate that our Scale-Former outperforms
the current state-of-the-art methods. The code is publicly available at:
https://github.com/ZJUGiveLab/ScaleFormer.
- Abstract(参考訳): 近年,長距離依存のモデリング能力として様々な視覚変換器が開発されている。
現在の医療画像分割のためのトランスフォーマーベースのバックボーンでは、畳み込み層が純粋なトランスフォーマーに置き換えられたり、グローバルコンテキストを学ぶために最も深いエンコーダにトランスフォーマーが追加されたりした。
しかし,(1)スケール内問題:各スケールにおける局所的言語的手がかりの抽出に欠く既存手法,(2)スケール間問題:既存の手法では複数のスケールから特有の情報を探索できなかったため,幅広い大きさ,形状,位置の物体からの表現学習が妨げられる可能性がある。
これらの制約に対処するために,(1)CNNをベースとした局所的特徴と,各スケールにおけるトランスフォーマーに基づくグローバルなキューとを結合するように設計されたスケールワイドなイントラスケールトランスフォーマーを,軽量なデュアルアクシスMSAにより行ワイドおよび列ワイドなグローバルな依存関係を抽出する,2つの魅力的な設計のバックボーン,すなわちScaleFormerを提案する。
2) 簡易かつ効果的な空間認識型大規模変圧器は, 複数スケールの連続領域間で相互作用し, 相互依存を強調し, 複雑なスケール変動を解消できるように設計されている。
異なるベンチマークにおける実験結果から, スケールフォーマは現在の最先端の手法を上回っていることが判明した。
コードは、https://github.com/ZJUGiveLab/ScaleFormer.comで公開されている。
関連論文リスト
- SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。
マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net [19.21709807149165]
既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-08-17T19:45:28Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。