論文の概要: Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems
- arxiv url: http://arxiv.org/abs/2506.03259v1
- Date: Tue, 03 Jun 2025 18:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.983301
- Title: Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems
- Title(参考訳): CTラジオグラフィーにおけるゼロショット病ラベリングのための大規模言語モデルの評価
- Authors: Michael E. Garcia-Alcoser, Mobina GhojoghNejad, Fakrul Islam Tushar, David Kim, Kyle J. Lafata, Geoffrey D. Rubin, Joseph Y. Lo,
- Abstract要約: 胸部,腹部,骨盤CTの多自由度ラベル付けのためのルールベースアルゴリズム(RBA),RadBERT,および3つの軽量オープンウェイトLCMを比較した。
コーエンのKappaとマイクロ/マクロ平均F1スコアを用いて評価した。
- 参考スコア(独自算出の注目度): 1.1373722549440357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: This study aims to evaluate the effectiveness of large language models (LLMs) in automating disease annotation of CT radiology reports. We compare a rule-based algorithm (RBA), RadBERT, and three lightweight open-weight LLMs for multi-disease labeling of chest, abdomen, and pelvis (CAP) CT reports. Materials and Methods: This retrospective study analyzed 40,833 CT reports from 29,540 patients, with 1,789 CAP reports manually annotated across three organ systems. External validation was conducted using the CT-RATE dataset. Three open-weight LLMs were tested with zero-shot prompting. Performance was evaluated using Cohen's Kappa and micro/macro-averaged F1 scores. Results: In 12,197 Duke CAP reports from 8,854 patients, Llama-3.1 8B and Gemma-3 27B showed the highest agreement ($\kappa$ median: 0.87). On the manually annotated set, Gemma-3 27B achieved the top macro-F1 (0.82), followed by Llama-3.1 8B (0.79), while the RBA scored lowest (0.64). On the CT-RATE dataset (lungs/pleura only), Llama-3.1 8B performed best (0.91), with Gemma-3 27B close behind (0.89). Performance differences were mainly due to differing labeling practices, especially for lung atelectasis. Conclusion: Lightweight LLMs outperform rule-based methods for CT report annotation and generalize across organ systems with zero-shot prompting. However, binary labels alone cannot capture the full nuance of report language. LLMs can provide a flexible, efficient solution aligned with clinical judgment and user needs.
- Abstract(参考訳): 目的:本研究の目的は,CT画像診断における疾患診断の自動化における大規模言語モデル(LLM)の有効性を評価することである。
胸部,腹部,骨盤CTの多自由度ラベル付けのためのルールベースアルゴリズム(RBA),RadBERT,および3つの軽量オープンウェイトLCMを比較した。
材料と方法: この振り返り調査は、29,540人の患者から40,833件のCTレポートを分析し、手動で3つの臓器システムに1,789件のCAPレポートを注釈付けした。
CT-RATEデータセットを用いて外部検証を行った。
3基のオープンウェイト LLM がゼロショットプロンプトで試験された。
コーエンのKappaとマイクロ/マクロ平均F1スコアを用いて評価した。
結果】Duke CAPは8,854例,Llama-3.1 8B,Gemma-3 27Bの計12,197例(中央値0。
手動でアノテートしたセットでは、Gemma-3 27BがトップマクロF1 (0.82)、続いてLlama-3.1 8B (0.79)、RBAは最低スコア(0.64)を達成した。
CT-RATEデータセット(lungs/pleura only)では、Llama-3.1 8Bが最高(0.91)、Gemma-3 27Bが0.89)であった。
成績の相違は主にラベル付けの慣行の違いによるもので、特に肺無電解症では顕著であった。
結論: 軽量LLMはCTのアノテーションを報告し, ゼロショットプロンプトによる臓器系全体にわたって一般化する規則に基づく手法より優れていた。
しかし、バイナリラベルだけでは、レポート言語の全ニュアンスをキャプチャできない。
LLMは、臨床判断とユーザニーズに合わせた、柔軟で効率的なソリューションを提供することができる。
関連論文リスト
- Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports [0.49998148477760973]
9つのオープンソースのLarge Language Models (LLMs) について, 患者を診断し, 様々な診断カテゴリーに分類する能力について検討した。
GoogleのGemma2モデルは平均F1スコアが0.98で、Qwen2.5:32BとDeepseekR1-32Bはそれぞれ0.96と0.95だった。
論文 参考訳(メタデータ) (2025-05-29T11:25:10Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - ELM: Ensemble of Language Models for Predicting Tumor Group from Pathology Reports [2.0447192404937353]
人口ベースがん登録所(PBCR)は、非構造的病理報告から手動でデータを抽出する際、重大なボトルネックに直面している。
我々は,小言語モデル (SLM) と大言語モデル (LLM) の両方を活用する,新しいアンサンブルベースのアプローチであるEMMを紹介する。
ELMは0.94の平均精度とリコールを達成し、シングルモデルとアンサンブルを伴わないアプローチより優れている。
論文 参考訳(メタデータ) (2025-03-24T19:21:53Z) - Utility of Multimodal Large Language Models in Analyzing Chest X-ray with Incomplete Contextual Information [0.8602553195689513]
大規模言語モデル (LLM) は, 臨床現場での利用が進んでいるが, 不完全な放射線学報告に悩まされることがある。
胸部X線撮影では,マルチモーダルLSM(テキストと画像を用いた)が精度と理解を向上できるかどうかを検討した。
論文 参考訳(メタデータ) (2024-09-20T01:42:53Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Automated Quantification of CT Patterns Associated with COVID-19 from
Chest CT [48.785596536318884]
提案法は,非造影胸部CTを入力として,病変,肺,葉を3次元に分割する。
この方法では、肺の重症度と葉の関与度を2つの組み合わせて測定し、COVID-19の異常度と高不透明度の存在度を定量化する。
このアルゴリズムの評価は、カナダ、ヨーロッパ、米国からの200人の参加者(感染者100人、健康管理100人)のCTで報告されている。
論文 参考訳(メタデータ) (2020-04-02T21:49:14Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。