論文の概要: Can Modern NLP Systems Reliably Annotate Chest Radiography Exams? A Pre-Purchase Evaluation and Comparative Study of Solutions from AWS, Google, Azure, John Snow Labs, and Open-Source Models on an Independent Pediatric Dataset
- arxiv url: http://arxiv.org/abs/2505.23030v1
- Date: Thu, 29 May 2025 03:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.643907
- Title: Can Modern NLP Systems Reliably Annotate Chest Radiography Exams? A Pre-Purchase Evaluation and Comparative Study of Solutions from AWS, Google, Azure, John Snow Labs, and Open-Source Models on an Independent Pediatric Dataset
- Title(参考訳): 現代のNLPシステムは、チェストラジオグラフィー検査を確実にアノテーションできるか? 独立小児科のデータセット上のAWS、Google、Azure、John Snow Labs、およびオープンソースモデルによるソリューションの事前評価と比較研究
- Authors: Shruti Hegde, Mabon Manoj Ninan, Jonathan R. Dillman, Shireen Hayatghaibi, Lynn Babcock, Elanchezhian Somasundaram,
- Abstract要約: 本研究では,エンティティ抽出とアサーション検出のための4つの臨床NLPシステムの比較を行った。
CheXpertとCheXbertの2つの専用の胸部X線写真レポートラベルが同じタスクで評価された。
小児科大病院における95,008例のCXR報告について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose clinical natural language processing (NLP) tools are increasingly used for the automatic labeling of clinical reports. However, independent evaluations for specific tasks, such as pediatric chest radiograph (CXR) report labeling, are limited. This study compares four commercial clinical NLP systems - Amazon Comprehend Medical (AWS), Google Healthcare NLP (GC), Azure Clinical NLP (AZ), and SparkNLP (SP) - for entity extraction and assertion detection in pediatric CXR reports. Additionally, CheXpert and CheXbert, two dedicated chest radiograph report labelers, were evaluated on the same task using CheXpert-defined labels. We analyzed 95,008 pediatric CXR reports from a large academic pediatric hospital. Entities and assertion statuses (positive, negative, uncertain) from the findings and impression sections were extracted by the NLP systems, with impression section entities mapped to 12 disease categories and a No Findings category. CheXpert and CheXbert extracted the same 13 categories. Outputs were compared using Fleiss Kappa and accuracy against a consensus pseudo-ground truth. Significant differences were found in the number of extracted entities and assertion distributions across NLP systems. SP extracted 49,688 unique entities, GC 16,477, AZ 31,543, and AWS 27,216. Assertion accuracy across models averaged around 62%, with SP highest (76%) and AWS lowest (50%). CheXpert and CheXbert achieved 56% accuracy. Considerable variability in performance highlights the need for careful validation and review before deploying NLP tools for clinical report labeling.
- Abstract(参考訳): 臨床報告の自動ラベル付けには, 汎用的自然言語処理(NLP)ツールが多用されている。
しかし, 小児胸部X線写真(CXR)のレポートラベリングなど, 特定のタスクに対する独立した評価は限られている。
本研究は,Amazon Comprehend Medical (AWS), Google Healthcare NLP (GC), Azure Clinical NLP (AZ), SparkNLP (SP) の4つの商用臨床NLPシステムを比較した。
さらに、CheXpertとCheXbertの2つの専用胸部X線写真レポートラベルが、CheXpert定義ラベルを使用して同じタスクで評価された。
小児科大病院における95,008例のCXR報告について検討した。
NLP システムでは,12 の疾患カテゴリとNo Findings のカテゴリにマッピングされた印象区間のエンティティを抽出し,発見と印象セクションからエンティティとアサーション状態(正,負,不確か)を抽出した。
CheXpertとCheXbertは同じ13のカテゴリを抽出した。
Fleiss Kappaを用いた結果と、コンセンサスによる疑似地下真実に対する精度を比較した。
NLPシステム間で抽出されたエンティティ数とアサーション分布に有意な差が認められた。
SPは49,688のユニークなエンティティ、GC 16,477、AZ 31,543、AWS 27,216を抽出した。
モデルのアクセレーション精度は平均62%、SPが最高(76%)、AWSが最低(50%)だった。
CheXpertとCheXbertは56%の精度を達成した。
臨床的レポートラベリングのためにNLPツールをデプロイする前に、評価とレビューを慎重に行う必要がある。
関連論文リスト
- CLEAR: A Clinically-Grounded Tabular Framework for Radiology Report Evaluation [19.416198842242856]
専門ラベルを用いた臨床評価フレームワークと放射線診断報告評価のための属性レベル比較(CLEAR)について紹介する。
CLEARは、報告書が医療状況の有無を正確に特定できるかどうかを調べる。
CLEARの臨床的アライメントを測定するため,MIMIC-CXRから得られた100個の胸部X線所見のデータセットであるCLEAR-Benchを開発した。
論文 参考訳(メタデータ) (2025-05-22T07:32:12Z) - CIRCA: comprehensible online system in support of chest X-rays-based
COVID-19 diagnosis [37.41181188499616]
深層学習技術は、新型コロナウイルスの迅速検出と疾患の進行のモニタリングに役立つ。
5つの異なるデータセットを使用して、モデルトレーニングのための23の799 CXRの代表的なデータセットを構築した。
The U-Net-based model was developed to identified a clinically relevant region of the CXR。
論文 参考訳(メタデータ) (2022-10-11T13:30:34Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Supervised Machine Learning Algorithm for Detecting Consistency between
Reported Findings and the Conclusions of Mammography Reports [66.89977257992568]
マンモグラフィーは患者の病態の診断を文書化する。
多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでいる。
本研究の目的は,報告された結論と,報告された放射線学の知見に基づいて期待される結果とを比較して,そのような不一致を検出するツールを開発することである。
論文 参考訳(メタデータ) (2022-02-28T08:59:04Z) - Label-Assemble: Leveraging Multiple Datasets with Partial Labels [68.46767639240564]
Label-Assemble”は、公開データセットのアセンブリから部分的なラベルの可能性を最大限に活用することを目的としている。
陰例からの学習は,コンピュータ支援型疾患の診断と検出の双方を促進することが判明した。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - Quantification of pulmonary involvement in COVID-19 pneumonia by means
of a cascade oftwo U-nets: training and assessment on multipledatasets using
different annotation criteria [83.83783947027392]
本研究は、新型コロナウイルスの肺病変の同定、セグメント化、定量化のために人工知能(AI)を活用することを目的とする。
2つのU-netのカスケードをベースとした自動解析パイプラインLungQuantシステムを開発した。
LungQuantシステムにおけるCT-Severity Score(CT-SS)の精度も評価した。
論文 参考訳(メタデータ) (2021-05-06T10:21:28Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Auxiliary Diagnosing Coronary Stenosis Using Machine Learning [2.4100803794273]
本論文では,4つの機械学習アルゴリズム,すなわちBoosted Tree(BT),Decision Tree(DT),Logistic Regression(LR),Random Forest(RF)が採用されている。
実験の結果、RFは他の3つのアルゴリズムよりも優れた性能を示し、以前のアルゴリズムは、個人が95.7%の精度でCSを持っているかどうかを分類する。
論文 参考訳(メタデータ) (2020-07-16T04:56:57Z) - Interpreting Chest X-rays via CNNs that Exploit Hierarchical Disease
Dependencies and Uncertainty Labels [0.33598755777055367]
本稿では,14の一般的な胸部疾患の存在と観察を診断するための,深部畳み込みニューラルネットワーク(CNN)に基づく枠組みを提案する。
提案手法はCheXpertコンペティションのinde-pendentテストセット上でも評価され, 経験者5名によるアパネルでアノテートされた500個のCXR研究が含まれている。
論文 参考訳(メタデータ) (2020-05-25T11:07:53Z) - CheXclusion: Fairness gaps in deep chest X-ray classifiers [4.656202572362684]
本研究では,最先端のディープラーニング分類器が保護属性に対してどの程度偏りがあるかを検討する。
我々は畳み込みニューラルネットワークをトレーニングし、14の診断ラベルを3つの有名な公共胸部X線データセットで予測する。
TPRの相違はサブグループの比例性疾患の重荷と有意な相関は認められなかった。
論文 参考訳(メタデータ) (2020-02-14T22:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。