論文の概要: Benchmarking Chest X-ray Diagnosis Models Across Multinational Datasets
- arxiv url: http://arxiv.org/abs/2505.16027v1
- Date: Wed, 21 May 2025 21:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.914756
- Title: Benchmarking Chest X-ray Diagnosis Models Across Multinational Datasets
- Title(参考訳): 多国間データセットにおける胸部X線診断モデルのベンチマーク
- Authors: Qinmei Xu, Yiheng Li, Xianghao Zhan, Ahmet Gorkem Er, Brittany Dashevsky, Chuanjun Xu, Mohammed Alawad, Mengya Yang, Liu Ya, Changsheng Zhou, Xiao Li, Haruka Itakura, Olivier Gevaert,
- Abstract要約: 視覚言語事前学習を利用した基礎モデルは胸部X線(CXR)解釈において有望であることが示されている。
本研究は,多国籍CXRデータセット上での従来の畳み込みニューラルネットワーク(CNN)と比較して,基礎モデルの診断性能と一般化性を評価する。
- 参考スコア(独自算出の注目度): 5.770825110701877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models leveraging vision-language pretraining have shown promise in chest X-ray (CXR) interpretation, yet their real-world performance across diverse populations and diagnostic tasks remains insufficiently evaluated. This study benchmarks the diagnostic performance and generalizability of foundation models versus traditional convolutional neural networks (CNNs) on multinational CXR datasets. We evaluated eight CXR diagnostic models - five vision-language foundation models and three CNN-based architectures - across 37 standardized classification tasks using six public datasets from the USA, Spain, India, and Vietnam, and three private datasets from hospitals in China. Performance was assessed using AUROC, AUPRC, and other metrics across both shared and dataset-specific tasks. Foundation models outperformed CNNs in both accuracy and task coverage. MAVL, a model incorporating knowledge-enhanced prompts and structured supervision, achieved the highest performance on public (mean AUROC: 0.82; AUPRC: 0.32) and private (mean AUROC: 0.95; AUPRC: 0.89) datasets, ranking first in 14 of 37 public and 3 of 4 private tasks. All models showed reduced performance on pediatric cases, with average AUROC dropping from 0.88 +/- 0.18 in adults to 0.57 +/- 0.29 in children (p = 0.0202). These findings highlight the value of structured supervision and prompt design in radiologic AI and suggest future directions including geographic expansion and ensemble modeling for clinical deployment. Code for all evaluated models is available at https://drive.google.com/drive/folders/1B99yMQm7bB4h1sVMIBja0RfUu8gLktCE
- Abstract(参考訳): 視覚言語による事前学習を利用した基礎モデルは胸部X線(CXR)の解釈において有望であることを示しているが、その実際の性能は多様な個体群と診断タスクで十分に評価されていない。
本研究は,多国籍CXRデータセット上での従来の畳み込みニューラルネットワーク(CNN)と比較して,基礎モデルの診断性能と一般化性を評価する。
我々は、米国、スペイン、インド、ベトナムの6つのパブリックデータセットと中国の病院からの3つのプライベートデータセットを使用して、37の標準化された分類タスクを対象に、8つのCXR診断モデル(5つのビジョン言語基盤モデルと3つのCNNベースのアーキテクチャ)を評価した。
AUROC、AUPRC、その他のメトリクスを使用して、共有タスクとデータセット固有のタスクのパフォーマンスを評価した。
ファンデーションモデルはCNNを精度とタスクカバレッジの両方で上回った。
MAVLは知識に富んだプロンプトと構造化された監督を取り入れたモデルで、公開(AUROC: 0.82; AUPRC: 0.32)とプライベート(AUROC: 0.95; AUPRC: 0.89)のデータセットで最高性能を達成し、37のパブリックのうち14位と4のプライベートタスクのうち3位にランクインした。
AUROCは成人では0.88+/-0.18から小児では0.57+/-0.29に低下した(p = 0.0202)。
これらの知見は、放射線学的AIにおける構造化された監督と迅速な設計の価値を強調し、臨床展開のための地理的拡張やアンサンブルモデリングを含む今後の方向性を提案する。
すべての評価されたモデルのコードはhttps://drive.google.com/drive/folders/1B99yMQm7bB4h1sVMIBja0RfUu8gLktCEで入手できる。
関連論文リスト
- A multimodal ensemble approach for clear cell renal cell carcinoma treatment outcome prediction [6.199310532720352]
臨床データ,マルチオミクスデータ,および病理組織学的全スライド画像(WSI)データを統合するマルチモーダルアンサンブルモデル(MMEM)を開発した。
MMEMはccRCC患者の全身生存率(OS)と無病生存率(DFS)を予測した。
論文 参考訳(メタデータ) (2024-12-10T02:51:14Z) - AI in Lung Health: Benchmarking Detection and Diagnostic Models Across Multiple CT Scan Datasets [0.33923727961771083]
肺がんは、世界中でがん関連死亡の原因となっている。
医療画像への人工知能の統合が拡大するにつれ、堅牢なAIモデルの開発と評価は、大規模で注釈の付いたデータセットへのアクセスを必要としている。
我々は,3次元結節検出と肺がん分類のためのディープラーニングモデルをベンチマークした。
論文 参考訳(メタデータ) (2024-05-07T18:36:40Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - A generalized deep learning model for multi-disease Chest X-Ray
diagnostics [0.0]
深部畳み込み型ニューラルネットワーク(CNN)の胸部X線による疾患分類における一般化可能性について検討した。
患者数が異なる3つの独立したサイトからデータセットを用いてモデルをトレーニングする。
我々のモデルは、複数のデータセットで訓練された場合、より一般化される。
論文 参考訳(メタデータ) (2020-10-17T18:57:40Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - A Systematic Search over Deep Convolutional Neural Network Architectures
for Screening Chest Radiographs [4.6411273009803065]
胸部X線写真は肺・胸部疾患のスクリーニングに用いられる。
近年の取り組みは、深層畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた性能ベンチマークを実証している。
複数の標準CNNアーキテクチャを体系的に探索し、分類性能がアンサンブルと同等であることが判明した単一候補モデルを特定した。
論文 参考訳(メタデータ) (2020-04-24T12:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。