論文の概要: A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases
- arxiv url: http://arxiv.org/abs/2406.00237v1
- Date: Fri, 31 May 2024 23:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:04:10.325067
- Title: A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases
- Title(参考訳): 胸部疾患の多型化のためのCNN, ResNet, Vision Transformerの比較検討
- Authors: Ananya Jain, Aviral Bhardwaj, Kaushik Murali, Isha Surani,
- Abstract要約: ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models, notably utilizing Transformer architectures, have emerged as powerful tools due to their scalability and ability to process large amounts of data. Dosovitskiy et al. expanded this architecture to introduce Vision Transformers (ViT), extending its applicability to image processing tasks. Motivated by this advancement, we fine-tuned two variants of ViT models, one pre-trained on ImageNet and another trained from scratch, using the NIH Chest X-ray dataset containing over 100,000 frontal-view X-ray images. Our study evaluates the performance of these models in the multi-label classification of 14 distinct diseases, while using Convolutional Neural Networks (CNNs) and ResNet architectures as baseline models for comparison. Through rigorous assessment based on accuracy metrics, we identify that the pre-trained ViT model surpasses CNNs and ResNet in this multilabel classification task, highlighting its potential for accurate diagnosis of various lung conditions from chest X-ray images.
- Abstract(参考訳): 大規模な言語モデル、特にTransformerアーキテクチャは、スケーラビリティと大量のデータ処理能力のために強力なツールとして登場した。
Dosovitskiyらはこのアーキテクチャを拡張してビジョントランスフォーマー(ViT)を導入した。
この進歩に触発された我々は、前頭前部X線画像10万枚以上を含むNIH Chest X-rayデータセットを用いて、ImageNetで事前訓練された2種類のViTモデルと、スクラッチから訓練された別のViTモデルを微調整した。
コンボリューショナルニューラルネットワーク(CNN)とResNetアーキテクチャをベースラインモデルとして,14の異なる疾患のマルチラベル分類におけるこれらのモデルの性能評価を行った。
精度測定値に基づく厳密な評価により,胸部X線画像から各種肺疾患の正確な診断の可能性を明らかにするとともに,トレーニング済みのViTモデルがCNNやResNetを上回ることが確認された。
関連論文リスト
- Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling [33.95780732124864]
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
論文 参考訳(メタデータ) (2023-09-18T08:30:55Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Vision Transformer-based Model for Severity Quantification of Lung
Pneumonia Using Chest X-ray Images [11.12596879975844]
我々は、新型コロナウイルスや他の肺疾患の重症度を定量化するために、少数のトレーニング可能なパラメータに依存するビジョントランスフォーマーベースのニューラルネットワークモデルを提案する。
本モデルでは,比較的低い計算コストで高一般化性で重大度を定量化する上で,ピーク性能を提供することができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:23Z) - Magnification Invariant Medical Image Analysis: A Comparison of
Convolutional Networks, Vision Transformers, and Token Mixers [2.3859625728972484]
畳み込みニューラルネットワーク(CNN)は医用画像解析に広く用いられている。
テスト画像の倍率がトレーニング画像と異なる場合、その性能は低下する。
本研究の目的は,様々なディープラーニングアーキテクチャの堅牢性を評価することである。
論文 参考訳(メタデータ) (2023-02-22T16:44:41Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Intra-model Variability in COVID-19 Classification Using Chest X-ray
Images [0.0]
12の共通ディープラーニングアーキテクチャにおいて,胸部X線におけるCOVID-19検出のためのベースライン性能指標と変数の定量化を行う。
最高のパフォーマンスモデルでは、新型コロナウイルスをホールドアウトセットで検出する際の偽陰性率は20点中3点である。
論文 参考訳(メタデータ) (2020-04-30T21:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。