論文の概要: CapsoNet: A CNN-Transformer Ensemble for Multi-Class Abnormality Detection in Video Capsule Endoscopy
- arxiv url: http://arxiv.org/abs/2410.18879v3
- Date: Wed, 06 Aug 2025 14:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.505903
- Title: CapsoNet: A CNN-Transformer Ensemble for Multi-Class Abnormality Detection in Video Capsule Endoscopy
- Title(参考訳): CapsoNet:ビデオカプセル内視鏡におけるマルチクラス異常検出のためのCNN変換器アンサンブル
- Authors: Arnav Samal, Ranya Batsyas,
- Abstract要約: CapsoNetは、Capsule Vision 2024 Challengeのために開発されたディープラーニングフレームワークである。
CapsoNetは、ビデオカプセル内視鏡(VCE)フレームでマルチクラス異常分類を行うように設計されている。
CapsoNetは86.34パーセント、AUC-ROCは0.9908というバランスの取れた精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CapsoNet, a deep learning framework developed for the Capsule Vision 2024 Challenge, designed to perform multi-class abnormality classification in video capsule endoscopy (VCE) frames. CapsoNet leverages an ensemble of convolutional neural networks (CNNs) and transformer-based architectures to capture both local and global visual features. The model was trained and evaluated on a dataset of over 50,000 annotated frames spanning ten abnormality classes, sourced from three public and one private dataset. To address the challenge of class imbalance, we employed focal loss, weighted random sampling, and extensive data augmentation strategies. All models were fully fine-tuned to maximize performance within the ensemble. CapsoNet achieved a balanced accuracy of 86.34 percent and a mean AUC-ROC of 0.9908 on the official validation set, securing Team Seq2Cure 5th place in the competition. Our implementation is available at http://github.com/arnavs04/capsule-vision-2024
- Abstract(参考訳): 本稿では,ビデオカプセル内視鏡(VCE)フレームにおける多クラス異常分類を実現するために,Capsule Vision 2024 Challenge用に開発されたディープラーニングフレームワークであるCapsoNetを提案する。
CapsoNetは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのアーキテクチャのアンサンブルを活用して、ローカルとグローバルの両方の視覚的特徴をキャプチャする。
このモデルは、3つのパブリックデータセットと1つのプライベートデータセットから得られた10の異常クラスにまたがる5万以上の注釈付きフレームのデータセットでトレーニングされ、評価された。
クラス不均衡の課題に対処するために、焦点損失、重み付きランダムサンプリング、および広範なデータ拡張戦略を採用した。
全てのモデルはアンサンブル内での性能を最大化するために完全に微調整された。
CapsoNetは86.34パーセント、AUC-ROCは0.9908というバランスの取れた精度を達成した。
私たちの実装はhttp://github.com/arnavs04/capsule-vision-2024で利用可能です。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Capsule Vision Challenge 2024: Multi-Class Abnormality Classification for Video Capsule Endoscopy [1.124958340749622]
本稿では,ビデオカプセル内視鏡(VCE)フレームにおける異常の分類モデルを提案する。
マイノリティクラス表現を強化するために,ロジテーションライブラリを用いた階層拡張戦略を実装した。
私たちのパイプラインはPyTorchで開発され、柔軟性のあるアーキテクチャを使って、分類の複雑さをシームレスに調整します。
論文 参考訳(メタデータ) (2024-11-03T08:34:04Z) - Multi-Class Abnormality Classification Task in Video Capsule Endoscopy [3.656114607436271]
ビデオカプセル内視鏡(VCE)における多クラス異常分類の課題に,様々なディープラーニングモデルを用いて対処する。
本研究の目的は,さまざまな消化管疾患を正しく分類することであり,臨床現場での診断効率の向上に重要である。
論文 参考訳(メタデータ) (2024-10-25T21:22:52Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - CoNe: Contrast Your Neighbours for Supervised Image Classification [62.12074282211957]
Contrast Your Neighbours (CoNe)は、教師付き画像分類のための学習フレームワークである。
CoNeは、より適応的で洗練されたターゲットを生成するために、類似した隣人の特徴をアンカーとして採用している。
私たちのCoNeは、最近のTimトレーニングレシピを上回るResNet-50で、ImageNetの80.8%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2023-08-21T14:49:37Z) - Severity classification of ground-glass opacity via 2-D convolutional
neural network and lung CT scans: a 3-day exploration [0.0]
グラウンドグラスの不透明度は、COVID-19や肺炎、肺線維症、結核など、多くの肺疾患の指標である。
本稿では,3日間にわたって実施,テストされた概念実証フレームワークについて,第3の課題である「COVID-19コンペティション」による実験的結果を示す。
課題の要件の一部として、このエクササイズ中に生成されたソースコードはhttps://github.com/lisatwyw/cov19.comに投稿されている。
論文 参考訳(メタデータ) (2023-03-23T22:35:37Z) - Capsule Network based Contrastive Learning of Unsupervised Visual
Representations [13.592112044121683]
Contrastive Capsule (CoCa) Modelは、新しいアーキテクチャ、トレーニング、テストアルゴリズムと対照的な損失を用いた、シームズスタイルのCapsule Networkである。
我々は、教師なし画像分類CIFAR-10データセットのモデルを評価し、トップ1テスト精度70.50%、トップ5テスト精度98.10%を達成する。
効率的なアーキテクチャのため、我々のモデルは、教師なし学習と教師なし学習の両方において、現在のSOTAの31倍のパラメータと71倍のFLOPを持つ。
論文 参考訳(メタデータ) (2022-09-22T19:05:27Z) - Video Capsule Endoscopy Classification using Focal Modulation Guided
Convolutional Neural Network [3.1374864575817214]
本稿では,小腸の解剖学的特徴と光学的所見の分類に軽量な畳み込み層を統合した焦点変調ネットワークであるFocalConvNetを提案する。
リアルタイム臨床環境におけるFocalConvNetの可能性を確立するため,最高スループットの128.02イメージ/秒を報告した。
論文 参考訳(メタデータ) (2022-06-16T16:57:45Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Parallel Capsule Networks for Classification of White Blood Cells [1.5749416770494706]
Capsule Networks(CapsNets)は、畳み込みニューラルネットワーク(CNN)の欠点を克服するために提案された機械学習アーキテクチャである。
我々は,特定のカプセルを分離するためにネットワークを分岐するという概念を活用する,新しいアーキテクチャであるCapsNetsを提案する。
論文 参考訳(メタデータ) (2021-08-05T14:30:44Z) - Multiclass Anomaly Detection in GI Endoscopic Images using Optimized
Deep One-class Classification in an Imbalanced Dataset [0.0]
ワイヤレスカプセル内視鏡は、医師が消化管を非侵襲的に検査するのに役立つ。
KID2やKvasirのような利用可能なデータセットの多くは、効果的な人工知能(AI)システムのトレーニングを難しくする不均衡な問題に悩まされている。
本研究では,一類分類器のアンサンブルを用いて異常を検出する。
論文 参考訳(メタデータ) (2021-03-15T16:28:42Z) - PS-DeVCEM: Pathology-sensitive deep learning model for video capsule
endoscopy based on weakly labeled data [0.0]
本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と大腸疾患の多ラベル分類を行うための, 病因性深層学習モデル(PS-DeVCEM)を提案する。
我々のモデルは注目に基づく深層マルチインスタンス学習によって駆動され、弱いラベル付きデータでエンドツーエンドに訓練されている。
トレーニング中にフレームアノテーション情報を使わずに、時間的にフレームを病状でローカライズする能力を示す。
論文 参考訳(メタデータ) (2020-11-22T15:33:37Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Subspace Capsule Network [85.69796543499021]
SubSpace Capsule Network (SCN) はカプセルネットワークのアイデアを利用して、エンティティの外観や暗黙的に定義された特性のバリエーションをモデル化する。
SCNは、テスト期間中にCNNと比較して計算オーバーヘッドを発生させることなく、識別モデルと生成モデルの両方に適用することができる。
論文 参考訳(メタデータ) (2020-02-07T17:51:56Z) - Identifying and Compensating for Feature Deviation in Imbalanced Deep
Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。
私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。
クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文 参考訳(メタデータ) (2020-01-06T03:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。