論文の概要: Primus: Enforcing Attention Usage for 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.01835v1
- Date: Mon, 03 Mar 2025 18:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:09.509939
- Title: Primus: Enforcing Attention Usage for 3D Medical Image Segmentation
- Title(参考訳): Primus: 3D医療画像のセグメンテーションに注意を喚起する
- Authors: Tassilo Wald, Saikat Roy, Fabian Isensee, Constantin Ulrich, Sebastian Ziegler, Dasha Trofimova, Raphael Stock, Michael Baumgartner, Gregor Köhler, Klaus Maier-Hein,
- Abstract要約: 現状のTransformerベースのセグメンテーションモデルを分析し,重要な欠点を同定する。
完全トランスフォーマーベースセグメンテーションアーキテクチャであるPrmusを導入する。
Primusは現在のTransformerベースのメソッドを超え、パブリックデータセットの最先端の畳み込みモデルと競合する。
- 参考スコア(独自算出の注目度): 1.2015918742353526
- License:
- Abstract: Transformers have achieved remarkable success across multiple fields, yet their impact on 3D medical image segmentation remains limited with convolutional networks still dominating major benchmarks. In this work, we a) analyze current Transformer-based segmentation models and identify critical shortcomings, particularly their over-reliance on convolutional blocks. Further, we demonstrate that in some architectures, performance is unaffected by the absence of the Transformer, thereby demonstrating their limited effectiveness. To address these challenges, we move away from hybrid architectures and b) introduce a fully Transformer-based segmentation architecture, termed Primus. Primus leverages high-resolution tokens, combined with advances in positional embeddings and block design, to maximally leverage its Transformer blocks. Through these adaptations Primus surpasses current Transformer-based methods and competes with state-of-the-art convolutional models on multiple public datasets. By doing so, we create the first pure Transformer architecture and take a significant step towards making Transformers state-of-the-art for 3D medical image segmentation.
- Abstract(参考訳): トランスフォーマーは、複数の分野にわたって顕著な成功を収めてきたが、3D医療画像セグメンテーションへの影響は依然として限られており、畳み込みネットワークが主要なベンチマークを支配している。
この作品では、
a) 現行のTransformerベースのセグメンテーションモデルを分析し、重要な欠点、特に畳み込みブロックに対する過度な信頼性を識別する。
さらに, 一部のアーキテクチャでは, トランスフォーマーの欠如により性能が損なわれず, 限られた有効性を示した。
これらの課題に対処するため、私たちはハイブリッドアーキテクチャから離れていきます。
b) プリマスと呼ばれる完全なトランスフォーマーベースのセグメンテーションアーキテクチャを導入する。
Primusは高解像度トークンと位置埋め込みとブロック設計の進歩を組み合わせて、Transformerブロックを最大限活用している。
これらの適応を通じて、Primusは現在のTransformerベースのメソッドを超え、複数のパブリックデータセット上の最先端の畳み込みモデルと競合する。
これにより、最初の純粋なTransformerアーキテクチャを作成し、3D画像セグメンテーションのためのTransformerの最先端化に向けて大きな一歩を踏み出した。
関連論文リスト
- Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。
我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文 参考訳(メタデータ) (2024-04-28T14:37:10Z) - Transformer Utilization in Medical Image Segmentation Networks [1.4764524377532229]
本稿では,Transformerブロックを線形演算子に置き換えて有効性を定量化するTransformer Ablationを提案する。
2つの医用画像セグメンテーションタスクに関する8つのモデルの実験により、1)トランスフォーマー-リアント表現の置き換え可能な性質、2)トランスフォーマーのキャパシティだけでは表現上の置換を防げないこと、3)トランスフォーマーブロックにおける明示的な特徴階層の存在は、自己認識モジュールに付随するよりも有益である。
論文 参考訳(メタデータ) (2023-04-09T12:35:22Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - A K-variate Time Series Is Worth K Words: Evolution of the Vanilla
Transformer Architecture for Long-term Multivariate Time Series Forecasting [52.33042819442005]
トランスフォーマーはMTSFのデファクトソリューションとなっている。
本研究では,MTSFトランスフォーマーアーキテクチャにおける現在のトークン化戦略がトランスフォーマーのトークン帰納バイアスを無視していることを指摘した。
バニラMTSF変圧器の基本構造について一連の進化を行った。
驚いたことに、進化した単純変圧器アーキテクチャは非常に効果的であり、バニラMTSF変圧器の過密現象を回避することに成功している。
論文 参考訳(メタデータ) (2022-12-06T07:00:31Z) - TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism
for a Deep Segmentation Model [4.320393382724066]
畳み込みニューラルネットワーク(CNN)は、医療画像処理時代の主流技術である。
本稿では,Transformerモジュールをエンコーダとスキップ接続の両方に統合する,新しいディープセグメンテーションフレームワークであるTrans-Normを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:54:10Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。