論文の概要: Multi-Class Abnormality Classification Task in Video Capsule Endoscopy
- arxiv url: http://arxiv.org/abs/2410.19973v1
- Date: Fri, 25 Oct 2024 21:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:27.559767
- Title: Multi-Class Abnormality Classification Task in Video Capsule Endoscopy
- Title(参考訳): ビデオカプセル内視鏡におけるマルチクラス異常分類タスク
- Authors: Dev Rishi Verma, Vibhor Saxena, Dhruv Sharma, Arpan Gupta,
- Abstract要約: ビデオカプセル内視鏡(VCE)における多クラス異常分類の課題に,様々なディープラーニングモデルを用いて対処する。
本研究の目的は,さまざまな消化管疾患を正しく分類することであり,臨床現場での診断効率の向上に重要である。
- 参考スコア(独自算出の注目度): 3.656114607436271
- License:
- Abstract: In this work we addressed the challenge of multi-class anomaly classification in Video Capsule Endoscopy (VCE)[1] with a variety of deep learning models, ranging from custom CNNs to advanced transformer architectures. The purpose is to correctly classify diverse gastrointestinal disorders, which is critical for increasing diagnostic efficiency in clinical settings. We started with a proprietary CNN and improved performance with ResNet[7] for better feature extraction, followed by Vision Transformer (ViT)[2] to capture global dependencies. Multiscale Vision Transformer (MViT)[6] improved hierarchical feature extraction, while Dual Attention Vision Transformer (DaViT)[4] delivered cutting-edge results by combining spatial and channel attention methods. This methodology enabled us to improve model accuracy across a wide range of criteria, greatly surpassing older methods.
- Abstract(参考訳): 本稿では,ビデオカプセル内視鏡(VCE)[1]における多クラス異常分類の課題を,カスタムCNNから高度なトランスフォーマーアーキテクチャに至るまで,さまざまなディープラーニングモデルを用いて解決する。
本研究の目的は,さまざまな消化管疾患を正しく分類することであり,臨床現場での診断効率の向上に重要である。
私たちは、プロプライエタリなCNNから始めて、ResNet[7]で機能抽出を改善し、続いてVit(ViT)[2]でグローバルな依存関係をキャプチャしました。
マルチスケール・ビジョン・トランスフォーマー(MViT)[6]は階層的特徴抽出を改善し、デュアルアテンション・ビジョン・トランスフォーマー(DaViT)[4]は空間的およびチャネル的注意法を組み合わせることで最先端の結果を出力した。
この手法により,従来の手法をはるかに上回り,幅広い基準でモデルの精度を向上させることが可能となった。
関連論文リスト
- Transformer-Based Wireless Capsule Endoscopy Bleeding Tissue Detection and Classification [0.562479170374811]
我々は出血フレームと非出血フレームの自動検出と分類のためのエンドツーエンドのトレーニング可能なモデルを設計する。
DETRモデルに基づいて,特徴抽出にはResnet50,出血および非出血領域検出にはトランスフォーマーエンコーダデコーダ,分類にはフィードフォワードニューラルネットワークを用いた。
自動WCEBleedGenバージョン1チャレンジトレーニングセットのエンドツーエンドアプローチでトレーニングされた本モデルでは,検出タスクと分類タスクの両方を単一ユニットとして実行する。
論文 参考訳(メタデータ) (2024-12-26T13:49:39Z) - Multi-Class Abnormality Classification in Video Capsule Endoscopy Using Deep Learning [0.0]
このレポートでは、Capsule Vision 2024 Challengeに対するTeam Seq2Cureのディープラーニングアプローチの概要を概説する。
コンボリューションニューラルネットワーク(CNN)とトランスフォーマーベースアーキテクチャのアンサンブルを利用して,ビデオカプセル内視鏡フレームの多クラス異常分類を行う。
提案手法は精度86.34パーセント,AUC-ROC平均スコア0.9908を検証セットで達成した。
論文 参考訳(メタデータ) (2024-10-24T16:13:06Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - Hard-Attention Gates with Gradient Routing for Endoscopic Image Computing [3.146247125118741]
本稿では,動的特徴選択のためのFeatureSelection Gates (FSG) やHard-Attention Gates (HAG) を紹介する。
この技術は、スパース接続を促進することにより、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を強化することを目的としている。
本稿では,HAGを拡張したネットワークが,ポリプサイズに関連する二分分類タスクと三分分類タスクの両方において,性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-07-05T10:20:24Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image
Classification [2.3293678240472517]
本研究では,多種多様なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。
異なるモダリティから3つの医用画像データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-04-23T04:07:03Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。