論文の概要: Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model
- arxiv url: http://arxiv.org/abs/2408.10733v1
- Date: Tue, 20 Aug 2024 11:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:04:52.024360
- Title: Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model
- Title(参考訳): CNN変換器モデルを用いた内視鏡・ビデオカプセル画像の分類
- Authors: Aliza Subedi, Smriti Regmi, Nisha Regmi, Bhumi Bhusal, Ulas Bagci, Debesh Jha,
- Abstract要約: 本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
- 参考スコア(独自算出の注目度): 1.0994755279455526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gastrointestinal cancer is a leading cause of cancer-related incidence and death, making it crucial to develop novel computer-aided diagnosis systems for early detection and enhanced treatment. Traditional approaches rely on the expertise of gastroenterologists to identify diseases; however, this process is subjective, and interpretation can vary even among expert clinicians. Considering recent advancements in classifying gastrointestinal anomalies and landmarks in endoscopic and video capsule endoscopy images, this study proposes a hybrid model that combines the advantages of Transformers and Convolutional Neural Networks (CNNs) to enhance classification performance. Our model utilizes DenseNet201 as a CNN branch to extract local features and integrates a Swin Transformer branch for global feature understanding, combining both to perform the classification task. For the GastroVision dataset, our proposed model demonstrates excellent performance with Precision, Recall, F1 score, Accuracy, and Matthews Correlation Coefficient (MCC) of 0.8320, 0.8386, 0.8324, 0.8386, and 0.8191, respectively, showcasing its robustness against class imbalance and surpassing other CNNs as well as the Swin Transformer model. Similarly, for the Kvasir-Capsule, a large video capsule endoscopy dataset, our model outperforms all others, achieving overall Precision, Recall, F1 score, Accuracy, and MCC of 0.7007, 0.7239, 0.6900, 0.7239, and 0.3871. Moreover, we generated saliency maps to explain our model's focus areas, demonstrating its reliable decision-making process. The results underscore the potential of our hybrid CNN-Transformer model in aiding the early and accurate detection of gastrointestinal (GI) anomalies.
- Abstract(参考訳): 消化器癌は癌の発生と死亡の主な原因であり、早期発見と治療強化のための新しいコンピュータ支援診断システムの開発が重要である。
伝統的なアプローチでは、消化器科医の専門知識に頼って疾患を特定するが、このプロセスは主観的であり、解釈は専門医の間でも異なる。
内視鏡およびビデオカプセル内視鏡画像における消化管の異常や目印の分類の最近の進歩を踏まえ,トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせたハイブリッドモデルを提案する。
我々のモデルはDenseNet201をCNNブランチとして利用して局所的な特徴を抽出し,グローバルな特徴理解のためにSwin Transformerブランチを統合する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であり,クラス不均衡に対する頑健さを示し,他のCNNやSwin Transformerモデルを上回る性能を示した。
同様に、大規模なビデオカプセル内視鏡データセットであるKvasir-Capsuleでは、我々のモデルは、全体的な精度、リコール、F1スコア、精度、MCCが0.7007、0.7239、0.6900、0.7239、0.3871である。
さらに、モデルの焦点領域を説明するために、サリエンシマップを作成し、信頼性の高い意思決定プロセスを示しました。
その結果,CNN-Transformerモデルが早期かつ正確な消化管異常の検出に役立つ可能性が示唆された。
関連論文リスト
- Advanced Hybrid Deep Learning Model for Enhanced Classification of Osteosarcoma Histopathology Images [0.0]
本研究は, 小児および思春期において最も多い骨癌である骨肉腫(OS)に焦点を当て, 腕と足の長い骨に影響を及ぼす。
我々は、OSの診断精度を向上させるために、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせた新しいハイブリッドモデルを提案する。
このモデルは精度99.08%、精度99.10%、リコール99.28%、F1スコア99.23%を達成した。
論文 参考訳(メタデータ) (2024-10-29T13:54:08Z) - Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy [0.024999074238880488]
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間で最大100万枚の画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-21T22:52:25Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image
Classification [2.3293678240472517]
本研究では,多種多様なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。
異なるモダリティから3つの医用画像データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-04-23T04:07:03Z) - Automatic Segmentation of Head and Neck Tumor: How Powerful Transformers
Are? [0.0]
我々は,H&N腫瘍を自動デライン化するための視覚変換器を用いた手法を開発した。
我々は、その結果をCNNベースのモデルと比較する。
選択した変換器ベースモデルにより,CNNベースモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-17T07:31:52Z) - Medulloblastoma Tumor Classification using Deep Transfer Learning with
Multi-Scale EfficientNets [63.62764375279861]
本稿では,エンド・ツー・エンドのMB腫瘍分類を提案し,様々な入力サイズとネットワーク次元の一致した移動学習を提案する。
161ケースのデータセットを用いて、より大規模な入力解像度を持つ事前学習されたEfficientNetが、大幅な性能改善をもたらすことを実証した。
論文 参考訳(メタデータ) (2021-09-10T13:07:11Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Acute Lymphoblastic Leukemia Detection from Microscopic Images Using
Weighted Ensemble of Convolutional Neural Networks [4.095759108304108]
本稿では,深層畳み込みニューラルネットワーク(cnns)を用いた顕微鏡細胞画像からの全検出タスクを自動化した。
ネットワークのより優れた一般化を達成するために、様々なデータ拡張と前処理が組み込まれている。
提案する重み付きアンサンブルモデルでは, アンサンブル候補のカッパ値を重みとして, 重み付きF1スコア88.6 %, バランス付き精度86.2 %, 予備試験セットのAUC0.941を出力した。
論文 参考訳(メタデータ) (2021-05-09T18:58:48Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。