論文の概要: DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation
- arxiv url: http://arxiv.org/abs/2212.13504v1
- Date: Tue, 27 Dec 2022 14:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:28:38.839840
- Title: DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation
- Title(参考訳): dae-former : 医用画像セグメンテーションのための2重注意誘導型効率的なトランスフォーマー
- Authors: Reza Azad, Ren\'e Arimond, Ehsan Khodapanah Aghdam, Amirhosein
Kazerouni, Dorit Merhof
- Abstract要約: DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 3.9548535445908928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have recently gained attention in the computer vision domain due
to their ability to model long-range dependencies. However, the self-attention
mechanism, which is the core part of the Transformer model, usually suffers
from quadratic computational complexity with respect to the number of tokens.
Many architectures attempt to reduce model complexity by limiting the
self-attention mechanism to local regions or by redesigning the tokenization
process. In this paper, we propose DAE-Former, a novel method that seeks to
provide an alternative perspective by efficiently designing the self-attention
mechanism. More specifically, we reformulate the self-attention mechanism to
capture both spatial and channel relations across the whole feature dimension
while staying computationally efficient. Furthermore, we redesign the skip
connection path by including the cross-attention module to ensure the feature
reusability and enhance the localization power. Our method outperforms
state-of-the-art methods on multi-organ cardiac and skin lesion segmentation
datasets without requiring pre-training weights. The code is publicly available
at https://github.com/mindflow-institue/DAEFormer.
- Abstract(参考訳): トランスフォーマーは最近、長距離依存をモデル化する能力により、コンピュータビジョン領域で注目を集めている。
しかし、変圧器モデルの中核部分である自己拘束機構は、通常トークン数に関して二次計算の複雑さに苦しむ。
多くのアーキテクチャは、自己保持機構をローカル領域に制限したり、トークン化プロセスを再設計することで、モデルの複雑さを減らそうとしている。
本稿では,自己認識機構を効率的に設計することで,新たな視点の提供を目指すDAE-Formerを提案する。
より具体的には、計算効率を保ちながら、特徴次元全体の空間的およびチャネル的関係を捉える自己認識機構を再構成する。
さらに, クロスアテンションモジュールを組み込んだスキップ接続経路の再設計を行い, 特徴再利用性を確保し, ローカライズパワーを高める。
プレトレーニング重量を必要とせず,多臓器心および皮膚病変分画データセットの最先端法を上回った。
コードはhttps://github.com/mindflow-institue/daeformerで公開されている。
関連論文リスト
- RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - TransDAE: Dual Attention Mechanism in a Hierarchical Transformer for Efficient Medical Image Segmentation [7.013315283888431]
医用画像のセグメンテーションは、正確な疾患診断と効果的な治療戦略の開発に不可欠である。
本稿では,トランスダエ(TransDAE)という,空間的・チャネル的関連性を含む自己認識機構を再定義する手法を紹介する。
注目すべきは、TransDAEがSynapsのマルチオーガナイズデータセット上で、既存の最先端メソッドより優れていることだ。
論文 参考訳(メタデータ) (2024-09-03T16:08:48Z) - Beyond Self-Attention: Deformable Large Kernel Attention for Medical
Image Segmentation [3.132430938881454]
我々は,大コンボリューションカーネルを用いて,ボリュームコンテキストを十分に理解するための注意機構であるtextbfDeformable Large Kernel Attention (D-LKA Attention) の概念を紹介した。
提案するアテンション機構は, 変形可能な畳み込みの利点を生かして, サンプリンググリッドを柔軟にワープし, モデルが多様なデータパターンに適切に適応できるようにする。
論文 参考訳(メタデータ) (2023-08-31T20:21:12Z) - PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift [139.17852337764586]
Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
本稿では,複数の枝を持つラダー自己保持ブロックと,軽量トランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案する。
論文 参考訳(メタデータ) (2023-04-07T05:21:37Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [6.646135062704341]
トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
論文 参考訳(メタデータ) (2021-07-02T00:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。