論文の概要: Scopeformer: n-CNN-ViT Hybrid Model for Intracranial Hemorrhage
Classification
- arxiv url: http://arxiv.org/abs/2107.04575v1
- Date: Wed, 7 Jul 2021 20:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:35:56.370037
- Title: Scopeformer: n-CNN-ViT Hybrid Model for Intracranial Hemorrhage
Classification
- Title(参考訳): Scopeformer:脳内出血分類のためのn-CNN-ViTハイブリッドモデル
- Authors: Yassine Barhoumi, Rasool Ghulam
- Abstract要約: 本稿では、視覚変換器(ViT)モデルを改善するために、畳み込みニューラルネットワーク(CNN)のアンサンブルからなる特徴生成器を提案する。
複数のXception CNNを用いて抽出した特徴マップを徐々に積み重ねることで、VTモデルのための特徴量豊富な入力を開発することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a feature generator backbone composed of an ensemble of
convolutional neuralnetworks (CNNs) to improve the recently emerging Vision
Transformer (ViT) models. We tackled the RSNA intracranial hemorrhage
classification problem, i.e., identifying various hemorrhage types from
computed tomography (CT) slices. We show that by gradually stacking several
feature maps extracted using multiple Xception CNNs, we can develop a
feature-rich input for the ViT model. Our approach allowed the ViT model to pay
attention to relevant features at multiple levels. Moreover, pretraining the n
CNNs using various paradigms leads to a diverse feature set and further
improves the performance of the proposed n-CNN-ViT. We achieved a test accuracy
of 98.04% with a weighted logarithmic loss value of 0.0708. The proposed
architecture is modular and scalable in both the number of CNNs used for
feature extraction and the size of the ViT.
- Abstract(参考訳): 本稿では,最近登場した視覚トランスフォーマー(vit)モデルを改善するために,畳み込みニューラルネットワーク(cnns)のアンサンブルからなる特徴発生器バックボーンを提案する。
われわれはRSNAの頭蓋内出血分類問題,すなわちCTスライスから様々な出血型を同定した。
複数のxception cnnを用いて抽出された複数の特徴マップを徐々に積み重ねることで、vitモデルのための特徴量豊富な入力を開発できることを示す。
我々のアプローチは、ViTモデルが複数のレベルで関連する機能に注意を払うことを可能にする。
さらに,様々なパラダイムを用いたn-cnnの事前学習は多様な特徴セットをもたらし,提案するn-cnn-vitの性能をさらに向上させる。
重み付き対数損失値0.0708の試験精度98.04%を達成した。
提案アーキテクチャは,機能抽出に使用されるCNNの数とViTのサイズの両方において,モジュール化と拡張性を備えている。
関連論文リスト
- TBConvL-Net: A Hybrid Deep Learning Architecture for Robust Medical Image Segmentation [6.013821375459473]
医用画像セグメンテーションのための新しいディープラーニングアーキテクチャを提案する。
提案モデルでは,10の公開データセット上でのテクニックの現状に対して,一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-09-05T09:14:03Z) - Channel Boosted CNN-Transformer-based Multi-Level and Multi-Scale Nuclei Segmentation [0.40964539027092917]
核セグメンテーションは、がんの診断や治療計画など、計算病理学の様々な応用に欠かせない基礎である。
正確なセグメンテーションを達成することは、クラスター化された核、サイズと形状における高いクラス内変動、他の細胞との類似、核と背景の間の色やコントラストの変化など、依然として困難である。
我々は,CNNとトランスフォーマーの長所を活かした2つのCNN-Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-27T05:54:05Z) - A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - Unveiling the Unseen: Identifiable Clusters in Trained Depthwise
Convolutional Kernels [56.69755544814834]
深部分離型畳み込みニューラルネットワーク(DS-CNN)の最近の進歩は、新しいアーキテクチャをもたらす。
本稿では,DS-CNNアーキテクチャのもう一つの顕著な特性を明らかにする。
論文 参考訳(メタデータ) (2024-01-25T19:05:53Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for
Intracranial Hemorrhage Detection [0.7734726150561088]
ScopeformerはCT画像における頭蓋内出血分類のための新しいマルチCNN-ViTモデルである。
本稿では,CNN生成特徴間の冗長性を低減し,ViTの入力サイズを制御するための効果的な特徴投影法を提案する。
様々なスコープフォーマーモデルによる実験により、モデルの性能は特徴抽出器で使用される畳み込みブロックの数に比例することが示された。
論文 参考訳(メタデータ) (2023-02-01T03:51:27Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Medulloblastoma Tumor Classification using Deep Transfer Learning with
Multi-Scale EfficientNets [63.62764375279861]
本稿では,エンド・ツー・エンドのMB腫瘍分類を提案し,様々な入力サイズとネットワーク次元の一致した移動学習を提案する。
161ケースのデータセットを用いて、より大規模な入力解像度を持つ事前学習されたEfficientNetが、大幅な性能改善をもたらすことを実証した。
論文 参考訳(メタデータ) (2021-09-10T13:07:11Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。