論文の概要: A Robust Pipeline for Classification and Detection of Bleeding Frames in Wireless Capsule Endoscopy using Swin Transformer and RT-DETR
- arxiv url: http://arxiv.org/abs/2406.08046v1
- Date: Wed, 12 Jun 2024 09:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:34:43.160713
- Title: A Robust Pipeline for Classification and Detection of Bleeding Frames in Wireless Capsule Endoscopy using Swin Transformer and RT-DETR
- Title(参考訳): Swin Transformer と RT-DETR を用いた無線カプセル内視鏡におけるブラッシングフレームの分類と検出のためのロバストパイプライン
- Authors: Sasidhar Alavala, Anil Kumar Vadde, Aparnamala Kancheti, Subrahmanyam Gorthi,
- Abstract要約: Swin Transformerは、出血フレームの初期分類と、出血のさらなる検出のためのRT-DETRを組み合わせたソリューションである。
検証セットでは、前処理なしで98.5%の分類精度を91.7%と比較する。
テストセットでは、それぞれ87.0%と89.0%の分類精度とF1スコアを達成する。
- 参考スコア(独自算出の注目度): 1.7499351967216343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our approach to the Auto WCEBleedGen Challenge V2 2024. Our solution combines the Swin Transformer for the initial classification of bleeding frames and RT-DETR for further detection of bleeding in Wireless Capsule Endoscopy (WCE), enhanced by a series of image preprocessing steps. These steps include converting images to Lab colour space, applying Contrast Limited Adaptive Histogram Equalization (CLAHE) for better contrast, and using Gaussian blur to suppress artefacts. The Swin Transformer utilizes a tiered architecture with shifted windows to efficiently manage self-attention calculations, focusing on local windows while enabling cross-window interactions. RT-DETR features an efficient hybrid encoder for fast processing of multi-scale features and an uncertainty-minimal query selection for enhanced accuracy. The class activation maps by Ablation-CAM are plausible to the model's decisions. On the validation set, this approach achieves a classification accuracy of 98.5% (best among the other state-of-the-art models) compared to 91.7% without any pre-processing and an $\text{AP}_{50}$ of 66.7% compared to 65.0% with state-of-the-art YOLOv8. On the test set, this approach achieves a classification accuracy and F1 score of 87.0% and 89.0% respectively.
- Abstract(参考訳): 本稿では,Auto WCEBleedGen Challenge V2 2024へのアプローチを提案する。
本ソリューションは, 出血フレームの初期分類のためのSwin Transformerと, 一連の前処理ステップによって強化された無線カプセル内視鏡(WCE)における出血のさらなる検出のためのRT-DETRを組み合わせる。
これらのステップには、イメージをLab色空間に変換すること、コントラスト限定適応ヒストグラム等化(CLAHE)をより良いコントラストに適用すること、アーティファクトを抑圧するためにガウスのぼかしを使用することが含まれる。
Swin Transformerは、ウィンドウがシフトした階層アーキテクチャを使用して、ローカルウィンドウにフォーカスしながら、ウィンドウ間の相互作用を可能としながら、自己アテンションの計算を効率的に管理する。
RT-DETRは、マルチスケール機能の高速処理のための効率的なハイブリッドエンコーダと、精度を高めるための不確実性最小のクエリ選択を備えている。
Ablation-CAMによるクラスアクティベーションマップは、モデルの判断にもっとも適している。
検証セットでは、事前処理なしで98.5%(他の最先端モデルの中で最も高い)の分類精度が91.7%、$\text{AP}_{50}$が66.7%であるのに対し、最先端のYOLOv8は65.0%である。
テストセットでは、それぞれ87.0%と89.0%の分類精度とF1スコアを達成する。
関連論文リスト
- Capsule Endoscopy Multi-classification via Gated Attention and Wavelet Transformations [1.5146068448101746]
消化管の異常は患者の健康に大きく影響を与え、タイムリーな診断が必要である。
この研究は、ビデオフレームから消化管の異常を分類するために設計された新しいモデルの開発と評価のプロセスを示す。
Omni次元のGated Attention(OGA)機構とWavelet変換技術をモデルアーキテクチャに統合することで、モデルは最も重要な領域に集中することができた。
このモデルの性能は、VGG16とResNet50の2つのベースモデルに対してベンチマークされ、胃腸の異常範囲を正確に識別し分類する能力の強化が示されている。
論文 参考訳(メタデータ) (2024-10-25T08:01:35Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Comparison of retinal regions-of-interest imaged by OCT for the
classification of intermediate AMD [3.0171643773711208]
269名の中間AMD患者と115名の健常者から15744名のBスキャンを行った。
各サブセットについて、畳み込みニューラルネットワーク(VGG16アーキテクチャに基づいて、ImageNetで事前トレーニングされた)をトレーニングし、テストした。
モデルの性能は, 受信動作特性(AUROC), 精度, 感度, 特異性に基づいて評価した。
論文 参考訳(メタデータ) (2023-05-04T13:48:55Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Enhanced Sharp-GAN For Histopathology Image Synthesis [63.845552349914186]
病理組織像合成は、正確ながん検出のためのディープラーニングアプローチの訓練において、データ不足の問題に対処することを目的としている。
核トポロジと輪郭正則化を用いて合成画像の品質を向上させる新しい手法を提案する。
提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。
論文 参考訳(メタデータ) (2023-01-24T17:54:01Z) - Hybrid guiding: A multi-resolution refinement approach for semantic
segmentation of gigapixel histopathological images [0.7490318169877296]
セマンティックセグメンテーションのための、H2G-Netと呼ばれるカスケード畳み込みニューラルネットワーク設計を提案する。
設計にはパッチワイズ方式による検出段階と、畳み込みオートエンコーダを用いた改良段階が含まれる。
最高の設計は90 WSIの独立したテストセットでDiceスコア0.933を達成した。
論文 参考訳(メタデータ) (2021-12-07T02:31:29Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Exploring the Effect of Image Enhancement Techniques on COVID-19
Detection using Chest X-rays Images [4.457871213347773]
本稿では,様々な画像強調技術の効果について検討し,それぞれが検出性能に与える影響について述べる。
我々はCOVQU-20と呼ばれる最大規模のX線データセットをコンパイルした。
CXR画像のガンマ補正による新型コロナウイルス検出における精度、精度、感度、f1スコア、特異度はそれぞれ96.29%、96.28%、96.29%、96.28%、96.27%であった。
論文 参考訳(メタデータ) (2020-11-25T20:58:27Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - COVIDLite: A depth-wise separable deep neural network with white balance
and CLAHE for detection of COVID-19 [1.1139113832077312]
COVIDLiteは、CLAHE(Contrast Limited Adaptive Histogram Equalization)とDSCNN(Deep-wise Separable Convolutional Neural Network)を組み合わせたホワイトバランスである。
提案したCOVIDLite法は,前処理のないバニラDSCNNと比較して性能が向上した。
提案手法は,2進分類では99.58%,多進分類では96.43%,最先端手法では96.43%であった。
論文 参考訳(メタデータ) (2020-06-19T02:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。