論文の概要: Limitations of Public Chest Radiography Datasets for Artificial Intelligence: Label Quality, Domain Shift, Bias and Evaluation Challenges
- arxiv url: http://arxiv.org/abs/2509.15107v1
- Date: Thu, 18 Sep 2025 16:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.322675
- Title: Limitations of Public Chest Radiography Datasets for Artificial Intelligence: Label Quality, Domain Shift, Bias and Evaluation Challenges
- Title(参考訳): 人工知能のための公開胸部X線撮影データセットの限界:ラベル品質、ドメインシフト、バイアス、評価課題
- Authors: Amy Rafferty, Rishi Ramaesh, Ajitha Rajan,
- Abstract要約: 大規模な公開データセットは、数十万のラベル付きイメージに病理アノテーションを提供する。
放射線診断レポートから 自動ラベル抽出が エラーを引き起こします
ドメインシフトと人口バイアスは サブグループモデル一般可能性を制限する
2人の放射線学者による専門家によるレビューでは、公開データセットラベルと大きな意見の相違が判明した。
- 参考スコア(独自算出の注目度): 3.295369583957252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence has shown significant promise in chest radiography, where deep learning models can approach radiologist-level diagnostic performance. Progress has been accelerated by large public datasets such as MIMIC-CXR, ChestX-ray14, PadChest, and CheXpert, which provide hundreds of thousands of labelled images with pathology annotations. However, these datasets also present important limitations. Automated label extraction from radiology reports introduces errors, particularly in handling uncertainty and negation, and radiologist review frequently disagrees with assigned labels. In addition, domain shift and population bias restrict model generalisability, while evaluation practices often overlook clinically meaningful measures. We conduct a systematic analysis of these challenges, focusing on label quality, dataset bias, and domain shift. Our cross-dataset domain shift evaluation across multiple model architectures revealed substantial external performance degradation, with pronounced reductions in AUPRC and F1 scores relative to internal testing. To assess dataset bias, we trained a source-classification model that distinguished datasets with near-perfect accuracy, and performed subgroup analyses showing reduced performance for minority age and sex groups. Finally, expert review by two board-certified radiologists identified significant disagreement with public dataset labels. Our findings highlight important clinical weaknesses of current benchmarks and emphasise the need for clinician-validated datasets and fairer evaluation frameworks.
- Abstract(参考訳): 人工知能は胸部X線撮影において、深層学習モデルが放射線医レベルの診断性能に近づくという大きな可能性を示している。
MIMIC-CXR、ChestX-ray14、PadChest、CheXpertといった大規模な公開データセットによって、数十万のラベル付きイメージに病理アノテーションが提供されている。
しかし、これらのデータセットには重要な制限がある。
放射線学報告からの自動ラベル抽出は、特に不確実性や否定を扱う際にエラーを導入し、放射線学者は、割り当てられたラベルと頻繁に意見が一致しない。
さらに、ドメインシフトと人口バイアスはモデル一般可能性を制限するが、評価慣行は臨床的に意味のある指標を見落としていることが多い。
ラベルの品質、データセットバイアス、ドメインシフトに焦点をあてて、これらの課題を体系的に分析します。
複数のモデルアーキテクチャを対象としたクロスデータセット領域シフト評価では,AUPRCとF1のスコアが大幅に低下し,外部性能が著しく低下した。
データセットバイアスを評価するために,データセットをほぼ完全精度で識別するソース分類モデルを訓練し,少数年齢と性集団のパフォーマンスの低下を示すサブグループ分析を行った。
最後に、2人の放射線学者による専門家によるレビューでは、公開データセットラベルとかなりの意見の相違が判明した。
本研究は、現在のベンチマークにおける重要な臨床的弱点を浮き彫りにし、臨床正当性データセットとより公平な評価フレームワークの必要性を強調した。
関連論文リスト
- Clinically-guided Data Synthesis for Laryngeal Lesion Detection [2.573786844054239]
そこで本研究では,Lyngeal endoscopic image-annotation pairを生成するために,Latent Diffusion Model(LDM)とControlNetアダプタを併用した新しいアプローチを提案する。
提案手法はCADx/eモデルのトレーニングデータセットの拡張に有効であり,喉頭科学における評価プロセスの強化に有効である。
論文 参考訳(メタデータ) (2025-08-08T09:55:54Z) - Domain Shift Analysis in Chest Radiographs Classification in a Veterans Healthcare Administration Population [3.4362586245712112]
DenseNet121モデルのMIMIC-CXRデータセットを深層学習に基づくマルチラベル分類に使用した。
MIMIC-CXR および Veterans Healthcare Administration 胸部X線データセット (VA-CXR) の胸部X線ラベルについて比較検討した。
VA-CXRデータセットはMIMIC-CXRデータセットよりも低い不一致率を示した。
論文 参考訳(メタデータ) (2024-07-30T19:23:29Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - 'Aariz: A Benchmark Dataset for Automatic Cephalometric Landmark
Detection and CVM Stage Classification [0.402058998065435]
このデータセットは、解像度の異なる7つの異なるX線画像装置から得られた1000個の側方脳波ラジオグラフィー(LCR)を含む。
私たちのチームの臨床専門家は、各X線写真に29の頭蓋計測のランドマークを細心の注意で注釈付けしました。
このデータセットは、矯正治療などに使われる信頼性の高い自動ランドマーク検出フレームワークの開発に役立ちます。
論文 参考訳(メタデータ) (2023-02-15T17:31:56Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - An Extensive Study on Cross-Dataset Bias and Evaluation Metrics
Interpretation for Machine Learning applied to Gastrointestinal Tract
Abnormality Classification [2.985964157078619]
GI領域における疾患の自動解析は、コンピュータ科学や医学関連雑誌でホットな話題となっている。
クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。
16種類のGIトラクタ条件を分類できる5つの異なる機械学習モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2020-05-08T08:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。