論文の概要: Multi-Compound Transformer for Accurate Biomedical Image Segmentation
- arxiv url: http://arxiv.org/abs/2106.14385v1
- Date: Mon, 28 Jun 2021 03:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:04:59.694224
- Title: Multi-Compound Transformer for Accurate Biomedical Image Segmentation
- Title(参考訳): 正確な生体画像分割のための多成分トランス
- Authors: Yuanfeng Ji, Ruimao Zhang, Huijie Wang, Zhen Li, Lingyun Wu, Shaoting
Zhang, and Ping Luo
- Abstract要約: 我々は、MCTrans(Multi-Compound Transformer)と呼ばれる統一トランスネットワークを提案する。
MCTransはトークンのシーケンスとしてマルチスケールの畳み込み機能を組み込んで、イントラスケールとインタースケールの自己アテンションを実行する。
MCTransはUNetのようなネットワークに簡単に接続でき、バイオメディカルイメージセグメンテーションにおける最先端の手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 33.49158559361491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent vision transformer(i.e.for image classification) learns non-local
attentive interaction of different patch tokens. However, prior arts miss
learning the cross-scale dependencies of different pixels, the semantic
correspondence of different labels, and the consistency of the feature
representations and semantic embeddings, which are critical for biomedical
segmentation. In this paper, we tackle the above issues by proposing a unified
transformer network, termed Multi-Compound Transformer (MCTrans), which
incorporates rich feature learning and semantic structure mining into a unified
framework. Specifically, MCTrans embeds the multi-scale convolutional features
as a sequence of tokens and performs intra- and inter-scale self-attention,
rather than single-scale attention in previous works. In addition, a learnable
proxy embedding is also introduced to model semantic relationship and feature
enhancement by using self-attention and cross-attention, respectively. MCTrans
can be easily plugged into a UNet-like network and attains a significant
improvement over the state-of-the-art methods in biomedical image segmentation
in six standard benchmarks. For example, MCTrans outperforms UNet by 3.64%,
3.71%, 4.34%, 2.8%, 1.88%, 1.57% in Pannuke, CVC-Clinic, CVC-Colon, Etis,
Kavirs, ISIC2018 dataset, respectively. Code is available at
https://github.com/JiYuanFeng/MCTrans.
- Abstract(参考訳): 最近のvision transformer(すなわち画像分類)は、異なるパッチトークンの非局所的注意相互作用を学習する。
しかし、先行技術では、異なるピクセルの大規模依存関係、異なるラベルのセマンティック対応、特徴表現とセマンティック埋め込みの整合性など、バイオメディカルセグメンテーションに欠如している。
本稿では,リッチな特徴学習と意味構造マイニングを融合した,MCTrans(Multi-Compound Transformer)と呼ばれる統合トランスネットワークを提案する。
具体的には、マルチスケールの畳み込み特徴をトークンのシーケンスとして組み込んで、以前の作品のシングルスケールではなく、イントラスケールとイントラスケールのセルフアテンションを実行する。
さらに,学習可能なプロキシ埋め込みも導入され,セマンティックな関係をモデル化し,自己認識とクロスアテンションを用いて機能強化を行う。
MCTransはUNetライクなネットワークに簡単に接続でき、6つの標準ベンチマークでバイオメディカルイメージセグメンテーションにおける最先端の手法よりも大幅に改善されている。
例えば、mctrans は unet を 3.64%, 3.71%, 4.34%, 2.8%, 1.88%, 1.57% の pannuke, cvc-clinic, cvc-colon, etis, kavirs, isic2018 データセットでそれぞれ上回っている。
コードはhttps://github.com/JiYuanFeng/MCTransで入手できる。
関連論文リスト
- Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - DA-TransUNet: Integrating Spatial and Channel Dual Attention with
Transformer U-Net for Medical Image Segmentation [5.5582646801199225]
本研究では,DA-TransUNetと呼ばれる新しい深層画像分割フレームワークを提案する。
トランスフォーマーとデュアルアテンションブロック(DA-Block)を従来のU字型アーキテクチャに統合することを目的としている。
以前のトランスフォーマーベースのU-netモデルとは異なり、DA-TransUNetはトランスフォーマーとDA-Blockを使用してグローバルな特徴とローカルな特徴だけでなく、画像固有の位置とチャネルの特徴を統合する。
論文 参考訳(メタデータ) (2023-10-19T08:25:03Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - TransAttUnet: Multi-level Attention-guided U-Net with Transformer for
Medical Image Segmentation [33.45471457058221]
本稿では,TransAttUnetと呼ばれるトランスフォーマーベースの医用画像セマンティックセマンティック・セマンティック・フレームワークを提案する。
特に,デコーダブロック間の複数スケールのスキップ接続を確立することで,セマンティック・スケールのアップサンプリング機能を集約する。
我々の手法は一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2021-07-12T09:17:06Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。