論文の概要: Towards Optimal Patch Size in Vision Transformers for Tumor Segmentation
- arxiv url: http://arxiv.org/abs/2308.16598v1
- Date: Thu, 31 Aug 2023 09:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:54:04.372858
- Title: Towards Optimal Patch Size in Vision Transformers for Tumor Segmentation
- Title(参考訳): 腫瘍切開用視覚変換器の最適パッチサイズ化に向けて
- Authors: Ramtin Mojtahedi, Mohammad Hamghalam, Richard K. G. Do, and Amber L.
Simpson
- Abstract要約: 転移性大腸癌(mCRC)における腫瘍の検出は,肝癌の早期診断と治療において重要な役割を担っている。
完全畳み込みニューラルネットワーク(FCNN)によってバックボンドされたディープラーニングモデルは、3Dコンピュータ断層撮影(CT)スキャンのセグメンテーションにおいて支配的なモデルとなっている。
視覚変換器は、FCNNの受容野の局所性を解決するために導入された。
本稿では,転移病変の平均体積サイズに基づいて,視覚変換器の最適入力多重解像度画像パッチサイズを選択する手法を提案する。
- 参考スコア(独自算出の注目度): 2.4540404783565433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection of tumors in metastatic colorectal cancer (mCRC) plays an essential
role in the early diagnosis and treatment of liver cancer. Deep learning models
backboned by fully convolutional neural networks (FCNNs) have become the
dominant model for segmenting 3D computerized tomography (CT) scans. However,
since their convolution layers suffer from limited kernel size, they are not
able to capture long-range dependencies and global context. To tackle this
restriction, vision transformers have been introduced to solve FCNN's locality
of receptive fields. Although transformers can capture long-range features,
their segmentation performance decreases with various tumor sizes due to the
model sensitivity to the input patch size. While finding an optimal patch size
improves the performance of vision transformer-based models on segmentation
tasks, it is a time-consuming and challenging procedure. This paper proposes a
technique to select the vision transformer's optimal input multi-resolution
image patch size based on the average volume size of metastasis lesions. We
further validated our suggested framework using a transfer-learning technique,
demonstrating that the highest Dice similarity coefficient (DSC) performance
was obtained by pre-training on training data with a larger tumour volume using
the suggested ideal patch size and then training with a smaller one. We
experimentally evaluate this idea through pre-training our model on a
multi-resolution public dataset. Our model showed consistent and improved
results when applied to our private multi-resolution mCRC dataset with a
smaller average tumor volume. This study lays the groundwork for optimizing
semantic segmentation of small objects using vision transformers. The
implementation source code is available
at:https://github.com/Ramtin-Mojtahedi/OVTPS.
- Abstract(参考訳): 転移性大腸癌(mcrc)における腫瘍の検出は肝癌の早期診断と治療において重要な役割を担っている。
完全畳み込みニューラルネットワーク(FCNN)によってバックボンドされたディープラーニングモデルは、3Dコンピュータ断層撮影(CT)スキャンを分割する主要なモデルとなっている。
しかし、畳み込み層はカーネルサイズが制限されているため、長距離の依存関係やグローバルコンテキストをキャプチャできない。
この制限に対処するため、FCNNの受容野の局所性を解決するために視覚変換器が導入された。
トランスは長距離の特徴を捉えることができるが、そのセグメンテーション性能は入力パッチサイズに対するモデル感度のため、様々な腫瘍サイズで低下する。
最適なパッチサイズを見つけることで、セグメンテーションタスクにおけるビジョントランスフォーマーベースのモデルの性能が向上するが、それは時間がかかり、困難な手順である。
本稿では,転移病変の平均容積サイズに基づいて視覚トランスフォーマの最適入力多解像度画像パッチサイズを選択する手法を提案する。
さらに,提案フレームワークをトランスファー・ラーニング手法を用いて検証し,提案する理想パッチサイズを用いて腫瘍体積の大きいトレーニングデータを事前トレーニングし,より小さいトレーニングを行った結果,dsc(dice similarity coefficient)性能が得られたことを実証した。
我々は,マルチレゾリューション・パブリックデータセット上でモデルを事前学習することにより,この概念を実験的に評価する。
平均腫瘍容積が小さいプライベート・マルチレゾリューションmCRCデータセットに適用すると,一貫した改善が得られた。
本研究は,視覚トランスフォーマーを用いた小型物体の意味セグメンテーションの最適化のための基礎研究である。
実装ソースコードは:https://github.com/ramtin-mojtahedi/ovtps。
関連論文リスト
- MBDRes-U-Net: Multi-Scale Lightweight Brain Tumor Segmentation Network [0.0]
本研究では,マルチブランチ残差ブロックを統合した3次元U-Netフレームワークを用いたMBDRes-U-Netモデルを提案する。
モデルの計算負担は分岐戦略によって低減され、マルチモーダル画像のリッチな局所的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2024-11-04T09:03:43Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - SwinCross: Cross-modal Swin Transformer for Head-and-Neck Tumor
Segmentation in PET/CT Images [6.936329289469511]
クロスモーダルアテンション(CMA)モジュールを備えたクロスモーダルスウィントランス (SwinCross) は、複数の解像度でクロスモーダル特徴抽出を組み込んだ。
提案手法は, 最先端の変圧器を用いた手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-08T03:36:57Z) - Learning from partially labeled data for multi-organ and tumor
segmentation [102.55303521877933]
本稿では,トランスフォーマーに基づく動的オンデマンドネットワーク(TransDoDNet)を提案する。
動的ヘッドにより、ネットワークは複数のセグメンテーションタスクを柔軟に達成することができる。
我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumorベンチマークを作成し、他の競合相手よりもTransDoDNetの方が優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-13T13:03:09Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors
in MRI Images [7.334185314342017]
我々はSwin UNEt TRansformers(Swin UNETR)と呼ばれる新しいセグメンテーションモデルを提案する。
このモデルは、シフトしたウィンドウを利用して、5つの異なる解像度で特徴を抽出し、自己注意を演算する。
我々は、BraTS 2021セグメンテーションチャレンジに参加し、提案したモデルは、検証フェーズにおける最も優れたアプローチの1つである。
論文 参考訳(メタデータ) (2022-01-04T18:01:34Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Spherical coordinates transformation pre-processing in Deep Convolution
Neural Networks for brain tumor segmentation in MRI [0.0]
深層畳み込みニューラルネットワーク(DCNN)は、最近非常に有望な結果を示している。
DCNNモデルは、優れたパフォーマンスを達成するために、大きな注釈付きデータセットが必要です。
本研究では,DCNNモデルの精度を向上させるために3次元球面座標変換を仮定した。
論文 参考訳(メタデータ) (2020-08-17T05:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。