論文の概要: Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net) for 3D Medical Image Segmentation and Visualization
- arxiv url: http://arxiv.org/abs/2406.17080v1
- Date: Mon, 24 Jun 2024 19:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:31:07.463014
- Title: Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net) for 3D Medical Image Segmentation and Visualization
- Title(参考訳): 3次元医用画像分割と可視化のためのトランスフォーマー・畳み込みネットワーク(MFTC-Net)のマルチアパーチャ融合
- Authors: Siyavash Shabani, Muhammad Sohaib, Sahar A. Mohammed, Bahram Parvin,
- Abstract要約: 本稿では, トランスフォーマー・畳み込みネットワーク(MFTC-Net)のマルチアパーチャ融合について紹介する。
Swin Transformerの出力とそれに対応する畳み込みブロックを3D融合ブロックを使って統合する。
提案したアーキテクチャは、それぞれDiceとHD95に対して89.73と7.31のスコアを示している。
- 参考スコア(独自算出の注目度): 1.3749490831384268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers have shown superior performance to the traditional convolutional-based frameworks in many vision applications, including but not limited to the segmentation of 3D medical images. To further advance this area, this study introduces the Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net), which integrates the output of Swin Transformers and their corresponding convolutional blocks using 3D fusion blocks. The Multi-Aperture incorporates each image patch at its original resolutions with its pyramid representation to better preserve minute details. The proposed architecture has demonstrated a score of 89.73 and 7.31 for Dice and HD95, respectively, on the Synapse multi-organs dataset an improvement over the published results. The improved performance also comes with the added benefits of the reduced complexity of approximately 40 million parameters. Our code is available at https://github.com/Siyavashshabani/MFTC-Net
- Abstract(参考訳): ビジョントランスフォーマーは、多くのビジョンアプリケーションにおいて従来の畳み込みベースのフレームワークよりも優れた性能を示しており、3D医療画像のセグメンテーションに限らない。
この領域をさらに進めるために,Swin Transformerとそれに対応する畳み込みブロックの出力を3次元融合ブロックを用いて統合するMFTC-Net(Multi-Aperture Fusion of Transformer-Convolutional Network)を導入する。
Multi-Apertureは、個々のイメージパッチを元の解像度に、ピラミッド表現を組み込んで、細部をよりよく保存する。
提案したアーキテクチャでは,Synapseマルチオーガナイズデータセットにおいて,DiceとHD95のスコアが89.73,HD95が7.31であった。
改善されたパフォーマンスには、約4000万のパラメータの複雑さを減らしたメリットもある。
私たちのコードはhttps://github.com/Siyavashshabani/MFTC-Netで利用可能です。
関連論文リスト
- SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical
Transformer for Medical Image Segmentation [5.635173603669784]
本研究では,高機能なボリュームセグメンテーションのために,ConvNetモジュールを用いた階層型トランスフォーマを適応させる3D UX-Netという軽量なボリュームトリビュータを提案する。
具体的には、Swin Transformerにインスパイアされた大規模なグローバルな受容フィールドを実現するために、大きなカーネルサイズ(例:7.7times7$から始まる)でボリュームの奥行きの畳み込みを再検討する。
論文 参考訳(メタデータ) (2022-09-29T19:54:13Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation [19.53151547706724]
トランスをベースとしたモデルは、医療画像セグメンテーションにおけるこれらの手法の探求に注目されている。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴抽出能力と変圧器強度の両面を活かしたAxial Fusion Transformer UNet(AFTer-UNet)を提案する。
パラメータが少なく、GPUメモリのトレーニングも従来のトランスフォーマーベースのモデルよりも少ない。
論文 参考訳(メタデータ) (2021-10-20T06:47:28Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。