論文の概要: Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach
- arxiv url: http://arxiv.org/abs/2301.10847v1
- Date: Wed, 25 Jan 2023 22:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:56:29.731152
- Title: Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach
- Title(参考訳): トランスセプションによる医用画像セグメンテーションの強化:マルチスケール特徴融合アプローチ
- Authors: Reza Azad, Yiwei Jia, Ehsan Khodapanah Aghdam, Julien Cohen-Adad,
Dorit Merhof
- Abstract要約: CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
- 参考スコア(独自算出の注目度): 3.9548535445908928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While CNN-based methods have been the cornerstone of medical image
segmentation due to their promising performance and robustness, they suffer
from limitations in capturing long-range dependencies. Transformer-based
approaches are currently prevailing since they enlarge the reception field to
model global contextual correlation. To further extract rich representations,
some extensions of the U-Net employ multi-scale feature extraction and fusion
modules and obtain improved performance. Inspired by this idea, we propose
TransCeption for medical image segmentation, a pure transformer-based U-shape
network featured by incorporating the inception-like module into the encoder
and adopting a contextual bridge for better feature fusion. The design proposed
in this work is based on three core principles: (1) The patch merging module in
the encoder is redesigned with ResInception Patch Merging (RIPM). Multi-branch
transformer (MB transformer) adopts the same number of branches as the outputs
of RIPM. Combining the two modules enables the model to capture a multi-scale
representation within a single stage. (2) We construct an Intra-stage Feature
Fusion (IFF) module following the MB transformer to enhance the aggregation of
feature maps from all the branches and particularly focus on the interaction
between the different channels of all the scales. (3) In contrast to a bridge
that only contains token-wise self-attention, we propose a Dual Transformer
Bridge that also includes channel-wise self-attention to exploit correlations
between scales at different stages from a dual perspective. Extensive
experiments on multi-organ and skin lesion segmentation tasks present the
superior performance of TransCeption compared to previous work. The code is
publicly available at \url{https://github.com/mindflow-institue/TransCeption}.
- Abstract(参考訳): cnnベースの手法は、その有望な性能と堅牢性のため、医療画像のセグメンテーションの基盤となっているが、長距離依存性を捉える上での制限に苦しめられている。
グローバルコンテキスト相関をモデル化するために受信フィールドを拡大するため、トランスフォーマティブベースのアプローチが現在普及している。
さらにリッチな表現を抽出するために、U-Netのいくつかの拡張ではマルチスケールの特徴抽出と融合モジュールを採用し、性能の向上を実現している。
この考え方に触発されて,エンコーダにインセプションのようなモジュールを組み込んで,より優れた機能融合を実現するためのコンテクストブリッジを導入することで特徴付けられる,純粋なトランスフォーマベースのu字型ネットワークである医用画像セグメンテーションのためのトランスセプションを提案する。
本研究で提案する設計は,(1)エンコーダのパッチマージモジュールをresinception patch merge (ripm) で再設計する,という3つの基本原則に基づいている。
マルチブランチ変換器(MB変換器)は、RIPMの出力と同じ数の分岐を採用する。
2つのモジュールを組み合わせることで、モデルは単一のステージ内でマルチスケールの表現をキャプチャできる。
2) MB変換器の後継となるIFFモジュールを構築し,すべての枝からの特徴マップを集約し,特にすべてのスケールの異なるチャネル間の相互作用に着目した。
3) トークン方向の自己着脱のみを含む橋とは対照的に, 2つの視点から異なる段階におけるスケール間の相関を利用するために, チャネル方向の自己着脱を含む2重変圧器橋を提案する。
複数臓器および皮膚病変のセグメンテーションタスクにおける広範囲な実験により, トランスセプションの性能は従来よりも優れていた。
コードは \url{https://github.com/mindflow-institue/TransCeption} で公開されている。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。
我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文 参考訳(メタデータ) (2024-04-28T14:37:10Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical
Image Segmentation [7.720152925974362]
MCPA(Multiscale Cross Perceptron Attention Network)と呼ばれる2次元医用画像分割モデルを提案する。
MCPAは、エンコーダ、デコーダ、クロスパーセプトロンの3つの主要コンポーネントで構成されている。
提案したMCPAモデルを,様々なタスクやデバイスから利用可能ないくつかの医用画像データセット上で評価した。
論文 参考訳(メタデータ) (2023-07-27T02:18:12Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - MISSFormer: An Effective Medical Image Segmentation Transformer [3.441872541209065]
CNNベースの手法は、医用画像のセグメンテーションにおいて顕著な成果を上げている。
トランスフォーマーベースの手法は、近ごろ、長距離依存の容量のため、視覚タスクで人気がある。
MISSFormerは,効果的かつ強力な医用画像tranSFormerである。
論文 参考訳(メタデータ) (2021-09-15T08:56:00Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。