論文の概要: CNN-based Local Vision Transformer for COVID-19 Diagnosis
- arxiv url: http://arxiv.org/abs/2207.02027v1
- Date: Tue, 5 Jul 2022 13:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 19:25:05.892326
- Title: CNN-based Local Vision Transformer for COVID-19 Diagnosis
- Title(参考訳): CNNを用いた新型コロナウイルス診断用ローカルビジョントランス
- Authors: Hongyan Xu, Xiu Su, Dadong Wang
- Abstract要約: Vision Transformer (ViT) は、その大域的受容野により、画像分類に大きな可能性を示している。
我々は、小さなCOVID-19データセット上でのViTベースのアーキテクチャのパフォーマンスを改善するために、Transformer for COVID-19 (COVT)と呼ばれる新しい構造を提案する。
- 参考スコア(独自算出の注目度): 5.042918676734868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning technology can be used as an assistive technology to help
doctors quickly and accurately identify COVID-19 infections. Recently, Vision
Transformer (ViT) has shown great potential towards image classification due to
its global receptive field. However, due to the lack of inductive biases
inherent to CNNs, the ViT-based structure leads to limited feature richness and
difficulty in model training. In this paper, we propose a new structure called
Transformer for COVID-19 (COVT) to improve the performance of ViT-based
architectures on small COVID-19 datasets. It uses CNN as a feature extractor to
effectively extract local structural information, and introduces average
pooling to ViT's Multilayer Perception(MLP) module for global information.
Experiments show the effectiveness of our method on the two COVID-19 datasets
and the ImageNet dataset.
- Abstract(参考訳): 深層学習技術は、医師が新型コロナウイルス感染症を迅速かつ正確に識別するための補助技術として使用できる。
近年、視覚変換器(ViT)は、その大域的受容野により、画像分類に大きな可能性を示している。
しかし、cnnに固有の帰納的バイアスがないため、vitベースの構造は機能の豊富さとモデルトレーニングの困難さに繋がる。
本稿では、小型のCOVID-19データセット上でのViTベースのアーキテクチャの性能を向上させるために、Transformer for COVID-19(COVT)と呼ばれる新しい構造を提案する。
ローカル構造情報を効率的に抽出するための特徴抽出器としてCNNを使用し、グローバル情報のためのViTのMultilayer Perception(MLP)モジュールに平均プーリングを導入する。
2つのCOVID-19データセットとImageNetデータセットに対して,本手法の有効性を示す実験を行った。
関連論文リスト
- Convolutional Initialization for Data-Efficient Vision Transformers [38.63299194992718]
小さなデータセット上のビジョントランスフォーマーネットワークのトレーニングには課題がある。
CNNはアーキテクチャ上の帰納バイアスを利用して最先端のパフォーマンスを達成することができる。
我々のアプローチは、ランダムなインパルスフィルタがCNNの学習フィルタとほぼ同等の性能を達成できるという発見に動機づけられている。
論文 参考訳(メタデータ) (2024-01-23T06:03:16Z) - Study of Vision Transformers for Covid-19 Detection from Chest X-rays [0.0]
新型コロナウイルス(COVID-19)のパンデミックは世界的な健康危機を招き、迅速かつ正確なウイルス検出の必要性を強調している。
本研究では、新型コロナウイルス検出のための視覚変換器を用いたトランスファーラーニングについて検討する。
我々は、ビジョントランスフォーマーの能力を利用して、グローバルなコンテキストを捉え、胸部X線画像から複雑なパターンを学習する。
論文 参考訳(メタデータ) (2023-07-17T14:06:07Z) - Vision Transformers for Small Histological Datasets Learned through
Knowledge Distillation [1.4724454726700604]
視覚変換器(ViT)は、診断アルゴリズムを実行する前に、人工物を検出して排除することができる。
堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでそれらをトレーニングすることだ。
気泡検出タスクにおけるViTの分類性能を向上させるための生徒-教師のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-27T05:09:03Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Locality Guidance for Improving Vision Transformers on Tiny Datasets [17.352384588114838]
ビジョントランスフォーマー(VT)アーキテクチャはコンピュータビジョンではトレンドになりつつあるが、純粋なVTモデルは小さなデータセットではパフォーマンスが悪い。
本稿では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。
論文 参考訳(メタデータ) (2022-07-20T16:41:41Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CCAT-NET: A Novel Transformer Based Semi-supervised Framework for
Covid-19 Lung Lesion Segmentation [8.90602077660994]
本稿では,CNNとTransformerを組み合わせた新しいネットワーク構造を提案する。
また,ラベル付きデータの不足に対処するために,効率的な半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T14:05:48Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。