論文の概要: Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis
- arxiv url: http://arxiv.org/abs/2603.14832v1
- Date: Mon, 16 Mar 2026 05:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.06564
- Title: Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis
- Title(参考訳): 2.5Dモデルと3Dモデルによるロバスト・新型コロナウイルスのCT診断
- Authors: Tuan-Anh Yang, Bao V. Q. Bui, Chanh-Quang Vo-Van, Truong-Son Hy,
- Abstract要約: 胸部CT画像から新型コロナウイルス検出・疾患分類を行うための深層学習フレームワークを提案する。
このフレームワークは2.5Dと3Dの両方の表現を統合し、補完的なスライスレベルとボリューム情報をキャプチャする。
PHAROS-AIF-MIHベンチマークの実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 5.645096759437525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a deep learning framework for COVID-19 detection and disease classification from chest CT scans that integrates both 2.5D and 3D representations to capture complementary slice-level and volumetric information. The 2.5D branch processes multi-view CT slices (axial, coronal, sagittal) using a DINOv3 vision transformer to extract robust visual features, while the 3D branch employs a ResNet-18 architecture to model volumetric context and is pretrained with Variance Risk Extrapolation (VREx) followed by supervised contrastive learning to improve cross-source robustness. Predictions from both branches are combined through logit-level ensemble inference. Experiments on the PHAROS-AIF-MIH benchmark demonstrate the effectiveness of the proposed approach: for binary COVID-19 detection, the ensemble achieves 94.48% accuracy and a 0.9426 Macro F1-score, outperforming both individual models, while for multi-class disease classification the 2.5D DINOv3 model achieves the best performance with 79.35% accuracy and a 0.7497 Macro F1-score. These results highlight the benefit of combining pretrained slice-based representations with volumetric modeling for robust multi-source medical imaging analysis. Code is available at https://github.com/HySonLab/PHAROS-AIF-MIH
- Abstract(参考訳): 本稿では, 2.5Dと3Dの両方の表現を統合した胸部CTスキャンから, 補完的なスライスレベルとボリュームレベルの情報を収集する深層学習フレームワークを提案する。
2.5DブランチはDINOv3ビジョントランスフォーマーを使用してマルチビューCTスライス(軸、コロナ、サギッタタル)を処理し、一方3DブランチはResNet-18アーキテクチャを使ってボリュームコンテキストをモデル化し、Variance Risk Extrapolation (VREx)で事前訓練し、教師付きコントラスト学習によりソース間の堅牢性を改善する。
両方のブランチからの予測は、ロジトレベルのアンサンブル推論によって結合される。
PHAROS-AIF-MIHベンチマークの実験は、提案されたアプローチの有効性を実証している: バイナリCOVID-19検出では、アンサンブルは94.48%の精度と0.9426のマクロF1スコアを達成し、どちらのモデルよりも優れており、マルチクラス分類では2.5D DINOv3モデルは79.35%の精度と0.7497のマクロF1スコアで最高のパフォーマンスを達成している。
これらの結果は,マルチソース医用画像解析において,事前訓練したスライス表現とボリュームモデリングを併用する利点を浮き彫りにした。
コードはhttps://github.com/HySonLab/PHAROS-AIF-MIHで公開されている。
関連論文リスト
- Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning [7.493047521402676]
本稿では,RL(Reinforcement Learning)を用いた3次元拡散モデルの改良手法を提案する。
2次元スライス・アセスメントと3次元解析を統合した新たな報酬システムによって導かれるPPO(Proximal Policy Optimization)を用いてモデルを微調整する。
以上の結果から,RLフィードバックを組み込むことで,より高品質な分散を実現することが可能であることが示唆された。
論文 参考訳(メタデータ) (2026-03-06T11:30:55Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - 2D and 3D Deep Learning Models for MRI-based Parkinson's Disease Classification: A Comparative Analysis of Convolutional Kolmogorov-Arnold Networks, Convolutional Neural Networks, and Graph Convolutional Networks [0.0]
本研究はパーキンソン病の診断にConvolutional Kolmogorov-Arnold Networks(ConvKANs)を適用した。
ConvKANは、構造MRIを用いたPD分類のために、学習可能なアクティベーション機能を畳み込み層に統合する。
医用画像用ConvKANの最初の3D実装について紹介し、その性能を畳み込みニューラルネットワーク(CNN)とグラフ畳み込みニューラルネットワーク(GCN)と比較した。
これらの知見は, PD検出に対するConvKANsの可能性を強調し, 脳の微妙な変化を捉える上での3D解析の重要性を強調し, データセット間の一般化の課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-24T16:04:18Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。