論文の概要: AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2404.00122v2
- Date: Tue, 17 Sep 2024 01:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 22:20:44.242372
- Title: AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation
- Title(参考訳): AgileFormer: 医療画像セグメンテーションのための空間的アジャイルトランスフォーマーUNet
- Authors: Peijie Qiu, Jin Yang, Sayantan Kumar, Soumyendu Sekhar Ghosh, Aristeidis Sotiras,
- Abstract要約: 視覚変換器をベースとしたUNet(ViT-UNet)セグメンテーションモデルの現在の設計は、不均一な外観を効果的に扱えない。
本稿では,空間動的成分をViT-UNetに導入するための構造化手法を提案する。
この適応により、モデルは様々な外観のターゲットオブジェクトの特徴を効果的に捉えることができる。
- 参考スコア(独自算出の注目度): 1.657223496316251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decades, deep neural networks, particularly convolutional neural networks, have achieved state-of-the-art performance in a variety of medical image segmentation tasks. Recently, the introduction of the vision transformer (ViT) has significantly altered the landscape of deep segmentation models. There has been a growing focus on ViTs, driven by their excellent performance and scalability. However, we argue that the current design of the vision transformer-based UNet (ViT-UNet) segmentation models may not effectively handle the heterogeneous appearance (e.g., varying shapes and sizes) of objects of interest in medical image segmentation tasks. To tackle this challenge, we present a structured approach to introduce spatially dynamic components to the ViT-UNet. This adaptation enables the model to effectively capture features of target objects with diverse appearances. This is achieved by three main components: \textbf{(i)} deformable patch embedding; \textbf{(ii)} spatially dynamic multi-head attention; \textbf{(iii)} deformable positional encoding. These components were integrated into a novel architecture, termed AgileFormer. AgileFormer is a spatially agile ViT-UNet designed for medical image segmentation. Experiments in three segmentation tasks using publicly available datasets demonstrated the effectiveness of the proposed method. The code is available at \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}.
- Abstract(参考訳): 過去数十年間、ディープニューラルネットワーク、特に畳み込みニューラルネットワークは、様々な医療画像セグメンテーションタスクにおいて最先端のパフォーマンスを実現してきた。
近年,視覚変換器(ViT)の導入により,深部セグメンテーションモデルの景観が大きく変化している。
優れたパフォーマンスとスケーラビリティによって、ViTに注目が集まっている。
しかし、視覚変換器を用いたUNetセグメンテーションモデル(ViT-UNet)の現在の設計は、医用画像セグメンテーションタスクに関心のある物体の不均一な外観(例えば、形状やサイズ)を効果的に扱えないと論じる。
この課題に対処するため、VT-UNetに空間動的成分を導入するための構造的アプローチを提案する。
この適応により、モデルは様々な外観のターゲットオブジェクトの特徴を効果的に捉えることができる。
これは3つの主要なコンポーネントによって達成される。
(i)} 変形可能なパッチ埋め込み; \textbf{
(ii)空間的動的マルチヘッドアテンション; \textbf{
(iii) 変形可能な位置符号化。
これらのコンポーネントは、AgileFormerと呼ばれる新しいアーキテクチャに統合されました。
AgileFormerは、医療画像セグメンテーション用に設計された空間的にアジャイルなViT-UNetである。
公開データセットを用いた3つのセグメンテーションタスクの実験により,提案手法の有効性が示された。
コードは \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer} で公開されている。
関連論文リスト
- MSA$^2$Net: Multi-scale Adaptive Attention-guided Network for Medical Image Segmentation [8.404273502720136]
MSA$2$Netは、スキップ接続を適切に設計した新しいディープセグメンテーションフレームワークである。
本稿では,空間的特徴を選択的に強調するために,MASAG(Multi-Scale Adaptive Space Attention Gate)を提案する。
MSA$2$Netは、最先端のSOTA(State-of-the-art)よりも優れています。
論文 参考訳(メタデータ) (2024-07-31T14:41:10Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。