論文の概要: Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation
- arxiv url: http://arxiv.org/abs/2410.10710v2
- Date: Tue, 15 Oct 2024 06:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:05:09.761056
- Title: Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation
- Title(参考訳): ビューアグリゲーションを用いた長尺CXR分類のためのConvNeXt V2とMaxViTのアンサンブル
- Authors: Yosuke Yamagishi, Shouhei Hanaoka,
- Abstract要約: 我々は,MICCAI 2024 CXR-LTチャレンジのソリューションを提案し,Subtask 2と5で4位,Subtask 1では5位となった。
胸部X線データセットを用いて事前訓練したConvNeXt V2およびMaxViTモデルのアンサンブルを用いて,胸部所見の長期分布に対処した。
- 参考スコア(独自算出の注目度): 0.13154296174423616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present our solution for the MICCAI 2024 CXR-LT challenge, achieving 4th place in Subtask 2 and 5th in Subtask 1. We leveraged an ensemble of ConvNeXt V2 and MaxViT models, pretrained on an external chest X-ray dataset, to address the long-tailed distribution of chest findings. The proposed method combines state-of-the-art image classification techniques, asymmetric loss for handling class imbalance, and view-based prediction aggregation to enhance classification performance. Through experiments, we demonstrate the advantages of our approach in improving both detection accuracy and the handling of the long-tailed distribution in CXR findings. The code is available at https://github.com/yamagishi0824/cxrlt24-multiview-pp.
- Abstract(参考訳): 本研究では,MICCAI 2024 CXR-LTの課題に対して,Subtask 2 で4位,Subtask 1 で5位となるソリューションを提案する。
胸部X線データセットを用いて事前訓練したConvNeXt V2およびMaxViTモデルのアンサンブルを用いて,胸部所見の長期分布に対処した。
提案手法は、最先端の画像分類手法、クラス不均衡を扱うための非対称な損失、および分類性能を高めるためにビューベース予測アグリゲーションを組み合わせる。
実験により,CXR実験における検出精度の向上と長期分布の取り扱いの両面において,本手法の利点を実証した。
コードはhttps://github.com/yamagishi0824/cxrlt24-multiview-ppで公開されている。
関連論文リスト
- LTCXNet: Advancing Chest X-Ray Analysis with Solutions for Long-Tailed Multi-Label Classification and Fairness Challenges [4.351007758390175]
Pruned MIMIC-CXR-LTデータセットは、長い尾と多ラベルのデータシナリオを表現するように設計されている。
本稿では,ConvNeXtモデル,ML-Decoder,戦略的データ拡張を統合した新しいフレームワークであるLCCXNetを紹介する。
論文 参考訳(メタデータ) (2024-11-16T08:59:20Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - CheXFusion: Effective Fusion of Multi-View Features using Transformers
for Long-Tailed Chest X-Ray Classification [4.708378681950648]
本稿では,ICCV CVAMD 2023 Shared Task on CXR-LT: Multi-Label Long-Tailed Classification on Chest X-raysについて述べる。
提案手法では,マルチビューイメージを取り入れたトランスフォーマーベースの融合モジュールであるCheXFusionを導入する。
提案手法はMIMIC-CXRテストセットにおいて0.372 mAPで最先端の結果を達成し,競争において第1位を確保した。
論文 参考訳(メタデータ) (2023-08-08T00:46:01Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Learning disentangled representations for explainable chest X-ray
classification using Dirichlet VAEs [68.73427163074015]
本研究では,胸部X線像の非絡み合った潜在表現の学習にDirVAE(Dirichlet Variational Autoencoder)を用いることを検討した。
DirVAEモデルにより学習された多モード潜在表現の予測能力について,補助的多ラベル分類タスクの実装により検討した。
論文 参考訳(メタデータ) (2023-02-06T18:10:08Z) - COVID-19 Classification Using Deep Learning Two-Stage Approach [0.0]
20,000以上のX線スキャンを含むデータセットがKaggleから検索された。
2段階分類法を1ショット分類法と比較した。
VGG16は5倍の訓練で1ショットのアプローチで95%の精度を達成した。
論文 参考訳(メタデータ) (2022-11-28T23:03:29Z) - Unsupervised Cross-Modality Domain Adaptation for Vestibular Schwannoma
Segmentation and Koos Grade Prediction based on Semi-Supervised Contrastive
Learning [1.5953825926551457]
クロスモダリティ前庭神経新生(VS)とコチェリーセグメンテーションとKoosグレード予測のための教師なしドメイン適応フレームワーク。
nnU-NetモデルはVSとcochleaセグメンテーションに利用され、半教師付きコントラクティブ学習事前訓練アプローチがモデル性能を改善するために使用される。
平均Diceスコアが0.8394のタスク1では4位,平均平均値が0.3941のタスク2では2位であった。
論文 参考訳(メタデータ) (2022-10-09T13:12:20Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - LVIS Challenge Track Technical Report 1st Place Solution: Distribution
Balanced and Boundary Refinement for Large Vocabulary Instance Segmentation [12.457303905862775]
本報告では, マスクとバウンダリの長テール分布とセグメンテーション品質の2つの側面に着目する。
先進的なHTCインスタンスセグメンテーションアルゴリズムに基づいて、CBNetv2にインスパイアされた複合接続を介してトランスフォーマーバックボーン(Swin-L)を接続し、ベースライン結果を強化する。
LVISチャレンジ2021では,マルチスケールテストと画像ごとの検出対象数上限の増大により,45.4%以上の境界APを達成した。
論文 参考訳(メタデータ) (2021-11-04T07:23:56Z) - Generalized Focal Loss V2: Learning Reliable Localization Quality
Estimation for Dense Object Detection [78.11775981796367]
GFLV2 (ResNet-101) は14.6 FPSで46.2 APを達成し、以前の最先端ATSSベースライン (43.6 AP at 14.6 FPS) をCOCO tt test-devで絶対2.6 APで上回った。
コードはhttps://github.com/implus/GFocalV2.comから入手できる。
論文 参考訳(メタデータ) (2020-11-25T17:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。