論文の概要: Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for
Intracranial Hemorrhage Detection
- arxiv url: http://arxiv.org/abs/2302.00220v1
- Date: Wed, 1 Feb 2023 03:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:34:21.621684
- Title: Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for
Intracranial Hemorrhage Detection
- Title(参考訳): 効率的なスコープフォーマ:頭蓋内出血検出のためのスケーラブルでリッチな特徴抽出に向けて
- Authors: Yassine Barhoumi, Nidhal C. Bouaynaya, Ghulam Rasool
- Abstract要約: ScopeformerはCT画像における頭蓋内出血分類のための新しいマルチCNN-ViTモデルである。
本稿では,CNN生成特徴間の冗長性を低減し,ViTの入力サイズを制御するための効果的な特徴投影法を提案する。
様々なスコープフォーマーモデルによる実験により、モデルの性能は特徴抽出器で使用される畳み込みブロックの数に比例することが示された。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality and richness of feature maps extracted by convolution neural
networks (CNNs) and vision Transformers (ViTs) directly relate to the robust
model performance. In medical computer vision, these information-rich features
are crucial for detecting rare cases within large datasets. This work presents
the "Scopeformer," a novel multi-CNN-ViT model for intracranial hemorrhage
classification in computed tomography (CT) images. The Scopeformer architecture
is scalable and modular, which allows utilizing various CNN architectures as
the backbone with diversified output features and pre-training strategies. We
propose effective feature projection methods to reduce redundancies among
CNN-generated features and to control the input size of ViTs. Extensive
experiments with various Scopeformer models show that the model performance is
proportional to the number of convolutional blocks employed in the feature
extractor. Using multiple strategies, including diversifying the pre-training
paradigms for CNNs, different pre-training datasets, and style transfer
techniques, we demonstrate an overall improvement in the model performance at
various computational budgets. Later, we propose smaller compute-efficient
Scopeformer versions with three different types of input and output ViT
configurations. Efficient Scopeformers use four different pre-trained CNN
architectures as feature extractors to increase feature richness. Our best
Efficient Scopeformer model achieved an accuracy of 96.94\% and a weighted
logarithmic loss of 0.083 with an eight times reduction in the number of
trainable parameters compared to the base Scopeformer. Another version of the
Efficient Scopeformer model further reduced the parameter space by almost 17
times with negligible performance reduction. Hybrid CNNs and ViTs might provide
the desired feature richness for developing accurate medical computer vision
models
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)によって抽出された特徴マップの品質と豊かさは、ロバストモデルの性能に直接関係する。
医療コンピュータビジョンにおいて、これらの情報豊富な特徴は、大規模なデータセット内で稀なケースを検出するために不可欠である。
本研究では,CT画像における頭蓋内出血分類のための新しいマルチCNN-ViTモデルであるScopeformerを提案する。
Scopeformerアーキテクチャはスケーラブルでモジュール化されており、多様な出力機能と事前学習戦略を備えたバックボーンとして様々なCNNアーキテクチャを利用することができる。
提案手法は,CNN生成した特徴間の冗長性を低減し,ViTの入力サイズを制御する。
様々なScopeformerモデルによる大規模な実験により、モデルの性能は特徴抽出器で使用される畳み込みブロックの数に比例することが示された。
CNNの事前学習パラダイム、異なる事前学習データセット、スタイル転送テクニックの多様化など、複数の戦略を用いて、様々な計算予算におけるモデル性能の全体的な改善を実証する。
その後、3種類の入力と出力のViT構成を持つより小さな計算効率のScopeformerバージョンを提案する。
効率的なスコープフォーマは4つの異なる事前学習されたcnnアーキテクチャを特徴抽出器として使用し、機能の豊かさを高めている。
最も効率的なスコープフォーマーモデルは、ベーススコープフォーマーと比較してトレーニング可能なパラメータ数を8倍削減し、96.94\%の精度と重み付き対数損失0.083を達成した。
効率の良いスコープフォーマーモデルの別のバージョンでは、性能を損なうことなくパラメータ空間を17倍近く削減した。
ハイブリッドCNNとViTは、正確な医療用コンピュータビジョンモデルの開発に望ましい機能を提供するかもしれない
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Variational autoencoder-based neural network model compression [4.992476489874941]
変分オートエンコーダ(VAE)は、深部生成モデルの一種であり、近年広く使われている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
論文 参考訳(メタデータ) (2024-08-25T09:06:22Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Scopeformer: n-CNN-ViT Hybrid Model for Intracranial Hemorrhage
Classification [0.0]
本稿では、視覚変換器(ViT)モデルを改善するために、畳み込みニューラルネットワーク(CNN)のアンサンブルからなる特徴生成器を提案する。
複数のXception CNNを用いて抽出した特徴マップを徐々に積み重ねることで、VTモデルのための特徴量豊富な入力を開発することができることを示す。
論文 参考訳(メタデータ) (2021-07-07T20:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。