論文の概要: Vision-Language Model Based Multi-Expert Fusion for CT Image Classification
- arxiv url: http://arxiv.org/abs/2603.15154v1
- Date: Mon, 16 Mar 2026 11:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.184733
- Title: Vision-Language Model Based Multi-Expert Fusion for CT Image Classification
- Title(参考訳): 視覚言語モデルに基づくCT画像分類のためのマルチエキスパートフュージョン
- Authors: Jianfa Bai, Kejin Lu, Runtian Yuan, Qingqiu Li, Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng,
- Abstract要約: 新型コロナウイルスのCT分類のための3段階のソース・アウェア・マルチエキスパート・フレームワークを提案する。
肺CTのボリュームと肺抽出CTのボリュームを併用し,肺を意識した3Dエキスパートを構築した。
予測された情報源情報を活用することで、異なる専門家に基づいてモデル融合と投票を行う。
- 参考スコア(独自算出の注目度): 30.909461061067336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust detection of COVID-19 from chest CT remains challenging in multi-institutional settings due to substantial source shift, source imbalance, and hidden test-source identities. In this work, we propose a three-stage source-aware multi-expert framework for multi-source COVID-19 CT classification. First, we build a lung-aware 3D expert by combining original CT volumes and lung-extracted CT volumes for volumetric classification. Second, we develop two MedSigLIP-based experts: a slice-wise representation and probability learning module, and a Transformer-based inter-slice context modeling module for capturing cross-slice dependency. Third, we train a source classifier to predict the latent source identity of each test scan. By leveraging the predicted source information, we perform model fusion and voting based on different experts. On the validation set covering all four sources, the Stage 1 model achieves the best macro-F1 of 0.9711, ACC of 0.9712, and AUC of 0.9791. Stage~2a and Stage~2b achieve the best AUC scores of 0.9864 and 0.9854, respectively. Stage~3 source classifier reaches 0.9107 ACC and 0.9114 F1. These results demonstrate that source-aware expert modeling and hierarchical voting provide an effective solution for robust COVID-19 CT classification under heterogeneous multi-source conditions.
- Abstract(参考訳): 胸部CTからのCOVID-19のロバスト検出は、かなりのソースシフト、ソース不均衡、隠れたテストソースの同一性のために、多施設環境では依然として困難である。
本研究では,複数ソースのCOVID-19 CT分類のための3段階のソース対応マルチエキスパートフレームワークを提案する。
まず,肺のCTボリュームと肺抽出CTボリュームを併用し,肺を意識した3D専門家を構築した。
次に、2つのMedSigLIPベースのエキスパートを開発する。スライスワイズ表現と確率学習モジュールと、クロススライス依存関係をキャプチャするTransformerベースのコンテキスト間モデリングモジュールである。
第3に、ソース分類器をトレーニングし、各テストスキャンの潜時ソース識別を予測する。
予測された情報源情報を活用することで、異なる専門家に基づいてモデル融合と投票を行う。
4つのソースすべてをカバーする検証セットでは、Stage 1モデルは0.9711、ACCは0.9712、AUCは0.9791である。
ステージ~2aとステージ~2bはそれぞれ0.9864と0.9854の最良のAUCスコアを得る。
ステージ~3ソース分類器は0.9107 ACCと0.9114 F1に達する。
これらの結果は、ソース認識の専門家モデリングと階層的投票が、異種多ソース条件下でのロバストなCOVID-19 CT分類に有効な解決策であることを示している。
関連論文リスト
- Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis [5.645096759437525]
胸部CT画像から新型コロナウイルス検出・疾患分類を行うための深層学習フレームワークを提案する。
このフレームワークは2.5Dと3Dの両方の表現を統合し、補完的なスライスレベルとボリューム情報をキャプチャする。
PHAROS-AIF-MIHベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-16T05:24:10Z) - A Heterogeneous Ensemble for Multi-Center COVID-19 Classification from Chest CT Scans [0.39998518782208775]
3つの推論パラダイムにまたがる9つのモデルの異種アンサンブルを示す。
アンサンブルは4つの病院センターで平均0.9280のマクロF1を達成し、最高のシングルモデルを上回っている。
論文 参考訳(メタデータ) (2026-03-15T21:34:59Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - Performance Evaluation of Deep Learning and Transformer Models Using Multimodal Data for Breast Cancer Classification [7.405837346783951]
乳がんの発生率と死亡率の上昇は、女性にとって大きな国際的懸念である。
深層学習(DL)は,BC分類において,ヒトの専門読者と比較して優れた診断性能を示した。
本研究では,BC分類のための多モードDLアーキテクチャを提案し,画像(マンモグラム,4ビュー)とテキストデータ(放射線学的レポート)を新しい社内データセットから利用した。
論文 参考訳(メタデータ) (2024-10-14T04:22:24Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Weakly Supervised 3D Classification of Chest CT using Aggregated
Multi-Resolution Deep Segmentation Features [5.938730586521215]
CT画像の病巣分類は, 症例レベルのアノテーションが原因で, 局所性に乏しい。
マルチレゾリューション・セグメンテーション・フィーチャーマップを用いて学習した意味構造概念を活用する医療分類器を提案する。
論文 参考訳(メタデータ) (2020-10-31T00:16:53Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。