論文の概要: Patcher: Patch Transformers with Mixture of Experts for Precise Medical
Image Segmentation
- arxiv url: http://arxiv.org/abs/2206.01741v1
- Date: Fri, 3 Jun 2022 04:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:14:52.139201
- Title: Patcher: Patch Transformers with Mixture of Experts for Precise Medical
Image Segmentation
- Title(参考訳): Patcher: 精密な医用画像分割のためのエキスパートの混在したパッチ変換器
- Authors: Yanglan Ou, Ye Yuan, Xiaolei Huang, Stephen T.C. Wong, John Volpi,
James Z. Wang, Kelvin Wong
- Abstract要約: 医用画像セグメンテーションのためのエンコーダ・デコーダ・ビジョントランスフォーマーアーキテクチャPacherを提案する。
通常のVision Transformersとは異なり、イメージを大きなパッチに分割するPacherブロックを使用している。
トランスフォーマーは、大きなパッチ内の小さなパッチに適用され、各ピクセルの受信フィールドが制限される。
- 参考スコア(独自算出の注目度): 17.51577168487812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new encoder-decoder Vision Transformer architecture, Patcher,
for medical image segmentation. Unlike standard Vision Transformers, it employs
Patcher blocks that segment an image into large patches, each of which is
further divided into small patches. Transformers are applied to the small
patches within a large patch, which constrains the receptive field of each
pixel. We intentionally make the large patches overlap to enhance intra-patch
communication. The encoder employs a cascade of Patcher blocks with increasing
receptive fields to extract features from local to global levels. This design
allows Patcher to benefit from both the coarse-to-fine feature extraction
common in CNNs and the superior spatial relationship modeling of Transformers.
We also propose a new mixture-of-experts (MoE) based decoder, which treats the
feature maps from the encoder as experts and selects a suitable set of expert
features to predict the label for each pixel. The use of MoE enables better
specializations of the expert features and reduces interference between them
during inference. Extensive experiments demonstrate that Patcher outperforms
state-of-the-art Transformer- and CNN-based approaches significantly on stroke
lesion segmentation and polyp segmentation. Code for Patcher will be released
with publication to facilitate future research.
- Abstract(参考訳): 本稿では,医療画像分割のための新しいエンコーダ・デコーダビジョントランスフォーマアーキテクチャであるpatcherを提案する。
通常のVision Transformersとは異なり、Pacherブロックを使用して画像を大きなパッチに分割し、それぞれを小さなパッチに分割する。
トランスフォーマーは、大きなパッチ内の小さなパッチに適用され、各ピクセルの受信フィールドが制限される。
故意にパッチを重複させてパッチ内通信を強化する。
エンコーダはPacherブロックのカスケードを使用し、受信フィールドを増やしてローカルからグローバルレベルまで特徴を抽出する。
この設計により、cnnで一般的な粗い特徴抽出とトランスフォーマの優れた空間関係モデリングの両方の恩恵を受けることができる。
また、エンコーダから特徴マップを専門家として扱い、各ピクセルのラベルを予測するための適切な専門家機能を選択する新しいmixed-of-experts(moe)ベースのデコーダを提案する。
MoEを使用することで、エキスパート機能のより優れた特殊化が可能になり、推論中にそれら間の干渉を減らすことができる。
パッチャーは脳卒中病変のセグメンテーションやポリープのセグメンテーションにおいて、最先端のトランスフォーマーやCNNベースのアプローチよりも優れていた。
今後の研究を促進するために、code for patcherが公開される予定だ。
関連論文リスト
- Augmenting Prototype Network with TransMix for Few-shot Hyperspectral
Image Classification [9.479240476603353]
我々は,数ショットハイパースペクトル画像分類(APNT)のためのTransMixによるプロトタイプネットワークの拡張を提案する。
プロトタイプネットワークをバックボーンとして、トランスフォーマーを特徴抽出器として採用し、画素間関係を学習する。
提案手法は,数発のハイパースペクトル画像分類において,技術性能とロバスト性の向上を実証した。
論文 参考訳(メタデータ) (2024-01-22T06:56:52Z) - MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文 参考訳(メタデータ) (2023-10-30T18:07:57Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Exploring and Improving Mobile Level Vision Transformers [81.7741384218121]
本稿では,移動体レベルでの視覚変換器の構造について検討し,劇的な性能低下を見出した。
本稿では,新しい不規則なパッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:42:49Z) - DPT: Deformable Patch-based Transformer for Visual Recognition [57.548916081146814]
本稿では,デフォルマブルパッチ (Deformable Patch) モジュールを提案する。デフォルマブルパッチ(Deformable Patch, DePatch)モジュールは,画像を異なる位置とスケールのパッチに適応的に分割し,データ駆動方式でスケールする。
DePatchモジュールはプラグイン・アンド・プレイモジュールとして動作し、異なるトランスフォーマーに簡単に組み込んでエンドツーエンドのトレーニングを実現することができる。
論文 参考訳(メタデータ) (2021-07-30T07:33:17Z) - Medical Image Segmentation using Squeeze-and-Expansion Transformers [12.793250990122557]
Segtranは、トランスフォーマーに基づく代替セグメンテーションフレームワークである。
Segtranは一貫して高いセグメンテーション精度を達成し、優れたクロスドメインの一般化能力を示した。
論文 参考訳(メタデータ) (2021-05-20T04:45:47Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。