論文の概要: DIAMANT: Dual Image-Attention Map Encoders For Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2304.14571v1
- Date: Fri, 28 Apr 2023 00:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:34:59.703222
- Title: DIAMANT: Dual Image-Attention Map Encoders For Medical Image
Segmentation
- Title(参考訳): diamant: 医用画像分割のためのデュアルイメージ・アテンションマップエンコーダ
- Authors: Yousef Yeganeh, Azade Farshad, Peter Weinberger, Seyed-Ahmad Ahmadi,
Ehsan Adeli, Nassir Navab
- Abstract要約: 自己教師付き事前学習型視覚変換器ネットワーク(例えば、DINO)から得られる注目マップの可視化を利用して、計算コストをはるかに少なくして複雑なトランスフォーマーベースネットワークより優れていることを示す。
2つの公開医療画像データセットを用いた実験の結果,提案パイプラインはU-Netと最先端の医用画像セグメンテーションモデルより優れていることがわかった。
- 参考スコア(独自算出の注目度): 46.19060502876747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although purely transformer-based architectures showed promising performance
in many computer vision tasks, many hybrid models consisting of CNN and
transformer blocks are introduced to fit more specialized tasks. Nevertheless,
despite the performance gain of both pure and hybrid transformer-based
architectures compared to CNNs in medical imaging segmentation, their high
training cost and complexity make it challenging to use them in real scenarios.
In this work, we propose simple architectures based on purely convolutional
layers, and show that by just taking advantage of the attention map
visualizations obtained from a self-supervised pretrained vision transformer
network (e.g., DINO) one can outperform complex transformer-based networks with
much less computation costs. The proposed architecture is composed of two
encoder branches with the original image as input in one branch and the
attention map visualizations of the same image from multiple self-attention
heads from a pre-trained DINO model (as multiple channels) in the other branch.
The results of our experiments on two publicly available medical imaging
datasets show that the proposed pipeline outperforms U-Net and the
state-of-the-art medical image segmentation models.
- Abstract(参考訳): 純粋なトランスフォーマーベースのアーキテクチャは多くのコンピュータビジョンタスクで有望な性能を示したが、cnnとトランスフォーマーブロックからなる多くのハイブリッドモデルがより専門的なタスクに適合するように導入された。
それでも、医療画像セグメンテーションにおけるCNNと比較して、純粋なトランスフォーマーとハイブリッドトランスフォーマーベースのアーキテクチャのパフォーマンスが向上しているにもかかわらず、その高いトレーニングコストと複雑さは、実際のシナリオでの使用を困難にしている。
本稿では,純粋に畳み込み層に基づく単純なアーキテクチャを提案するとともに,自己教師付き視覚トランスフォーマーネットワーク(dinoなど)から得られる注意マップの可視化を,計算コストをはるかに低減した複雑なトランスフォーマーベースのネットワークよりも優れることを示す。
提案手法は,2つのエンコーダ枝から構成され,1つの枝にオリジナル画像が入力され,もう1つの枝の事前学習されたdinoモデル(複数チャネル)から複数のセルフアテンションヘッドから同じ画像のアテンションマップが可視化される。
2つの医療画像データセットを用いた実験の結果,提案パイプラインがu-netおよび最先端医療画像セグメンテーションモデルを上回ることがわかった。
関連論文リスト
- Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。
我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文 参考訳(メタデータ) (2024-04-28T14:37:10Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - 3D TransUNet: Advancing Medical Image Segmentation through Vision
Transformers [40.21263511313524]
医療画像のセグメンテーションは、疾患診断と治療計画のための医療システムの発展に重要な役割を担っている。
U-Netとして知られるU字型アーキテクチャは、様々な医療画像セグメンテーションタスクで高い成功を収めている。
これらの制限に対処するため、研究者たちはトランスフォーマー(Transformer)に転換した。
論文 参考訳(メタデータ) (2023-10-11T18:07:19Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - MISSFormer: An Effective Medical Image Segmentation Transformer [3.441872541209065]
CNNベースの手法は、医用画像のセグメンテーションにおいて顕著な成果を上げている。
トランスフォーマーベースの手法は、近ごろ、長距離依存の容量のため、視覚タスクで人気がある。
MISSFormerは,効果的かつ強力な医用画像tranSFormerである。
論文 参考訳(メタデータ) (2021-09-15T08:56:00Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。