論文の概要: Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image
Classification
- arxiv url: http://arxiv.org/abs/2304.11529v1
- Date: Sun, 23 Apr 2023 04:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:51:18.341058
- Title: Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image
Classification
- Title(参考訳): 胸部X線高能率視覚変換器と消化管画像分類
- Authors: Smriti Regmi, Aliza Subedi, Ulas Bagci, Debesh Jha
- Abstract要約: 本研究では,多種多様なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。
異なるモダリティから3つの医用画像データセットを用いて評価を行った。
- 参考スコア(独自算出の注目度): 2.3293678240472517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image analysis is a hot research topic because of its usefulness in
different clinical applications, such as early disease diagnosis and treatment.
Convolutional neural networks (CNNs) have become the de-facto standard in
medical image analysis tasks because of their ability to learn complex features
from the available datasets, which makes them surpass humans in many
image-understanding tasks. In addition to CNNs, transformer architectures also
have gained popularity for medical image analysis tasks. However, despite
progress in the field, there are still potential areas for improvement. This
study uses different CNNs and transformer-based methods with a wide range of
data augmentation techniques. We evaluated their performance on three medical
image datasets from different modalities. We evaluated and compared the
performance of the vision transformer model with other state-of-the-art (SOTA)
pre-trained CNN networks. For Chest X-ray, our vision transformer model
achieved the highest F1 score of 0.9532, recall of 0.9533, Matthews correlation
coefficient (MCC) of 0.9259, and ROC-AUC score of 0.97. Similarly, for the
Kvasir dataset, we achieved an F1 score of 0.9436, recall of 0.9437, MCC of
0.9360, and ROC-AUC score of 0.97. For the Kvasir-Capsule (a large-scale VCE
dataset), our ViT model achieved a weighted F1-score of 0.7156, recall of
0.7182, MCC of 0.3705, and ROC-AUC score of 0.57. We found that our
transformer-based models were better or more effective than various CNN models
for classifying different anatomical structures, findings, and abnormalities.
Our model showed improvement over the CNN-based approaches and suggests that it
could be used as a new benchmarking algorithm for algorithm development.
- Abstract(参考訳): 医学画像解析は、早期疾患の診断や治療など、様々な臨床応用で有用であるため、ホットな研究テーマである。
畳み込みニューラルネットワーク(CNN)は、利用可能なデータセットから複雑な特徴を学習できるため、医療画像解析タスクにおいてデファクトスタンダードになっている。
CNNに加えて、トランスフォーマーアーキテクチャは医療画像解析タスクでも人気を博している。
しかし、この分野の進展にもかかわらず、改善の余地はまだある。
本研究では,様々なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。
異なるモダリティから3つの医用画像データセットを用いて評価を行った。
視覚トランスフォーマーモデルとsof-the-art (sota) プレトレーニングcnnネットワークの性能を評価し比較した。
胸部x線では,視差トランスフォーマーモデルが0.9532点,リコール0.9533点,マシューズ相関係数(mcc)0.09259点,roc-aucスコア0.97点であった。
同様に、Kvasirデータセットでは、F1スコアが0.9436、リコールが0.9437、MCCが0.9360、ROC-AUCスコアが0.97に達した。
Kvasir-Capsule(大規模なVCEデータセット)では、VTモデルは重み付きF1スコア0.7156、リコール0.7182、MCC0.3705、ROC-AUCスコア0.57を達成した。
その結果,様々な解剖学的構造,所見,異常の分類において,トランスフォーマモデルの方がcnnモデルより優れているかより効果的であることが判明した。
提案手法はCNNに基づくアプローチよりも改善され,アルゴリズム開発のための新しいベンチマークアルゴリズムとして利用できる可能性が示唆された。
関連論文リスト
- Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Virtual imaging trials improved the transparency and reliability of AI systems in COVID-19 imaging [1.6040478776985583]
本研究は、CTと胸部X線撮影(CXR)を用いた新型コロナウイルス診断における畳み込みニューラルネットワーク(CNN)の使用に焦点を当てる。
複数のAIモデル、すなわち3D ResNet-likeと2D EfficientNetv2アーキテクチャを開発し、テストした。
最も多様なデータセットでトレーニングされたモデルでは、AUCがCTで0.73から0.76、CXRで0.70から0.73まで、最高の外部テスト性能を示した。
論文 参考訳(メタデータ) (2023-08-17T19:12:32Z) - Using Multiple Dermoscopic Photographs of One Lesion Improves Melanoma
Classification via Deep Learning: A Prognostic Diagnostic Accuracy Study [0.0]
本研究はCNNをベースとしたメラノーマ分類器に対する単一病変の複数の実世界の皮膚内視鏡像の影響について検討した。
複数の実世界の画像を使用することは、CNNベースのメラノーマ分類器の性能に肯定的な影響を及ぼすための安価な方法である。
論文 参考訳(メタデータ) (2023-06-05T11:55:57Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。