論文の概要: Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters
- arxiv url: http://arxiv.org/abs/2503.21004v3
- Date: Mon, 11 Aug 2025 23:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 18:56:18.560491
- Title: Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters
- Title(参考訳): 肺塞栓症登録における臨床抽象化の自動化のための大規模言語モデルの評価:モデルサイズ,バージョン,パラメータ間のパフォーマンス
- Authors: Mahmoud Alwakeel, Emory Buck, Jonathan G. Martin, Imran Aslam, Sudarshan Rajagopal, Jian Pei, Mihai V. Podgoreanu, Christopher J. Lindsell, An-Kwok Ian Wong,
- Abstract要約: データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。
LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護します。
- 参考スコア(独自算出の注目度): 16.74673750576054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pulmonary embolism (PE) registries accelerate practice-improving research but depend on resource-intensive manual abstraction of radiology reports. We evaluated whether openly available large-language models (LLMs) can automate concept extraction from computed-tomography PE (CTPE) reports without sacrificing data quality. Four Llama-3 (L3) variants (3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B) and two reviewer models Phi-4 (P4) 14 B and Gemma-3 27 B (G3) were tested on 250 dual-annotated CTPE reports each from MIMIC-IV and Duke University. Outcomes were accuracy, positive predictive value (PPV), and negative predictive value (NPV) versus a human gold standard across model sizes, temperature settings, and shot counts. Mean accuracy across all concepts increased with scale: 0.83 (L3-0 8 B), 0.91 (L3-1 8 B), and 0.96 for both 70 B variants; P4 14 B achieved 0.98; G3 matched. Accuracy differed by < 0.03 between datasets, underscoring external robustness. In dual-model concordance analysis (L3 70 B + P4 14 B), PE-presence PPV was >= 0.95 and NPV >= 0.98, while location, thrombus burden, right-heart strain, and image-quality artifacts each maintained PPV >= 0.90 and NPV >= 0.95. Fewer than 4% of individual concept annotations were discordant, and complete agreement was observed in more than 75% of reports. G3 performed comparably. LLMs therefore offer a scalable, accurate solution for PE registry abstraction, and a dual-model review workflow can further safeguard data quality with minimal human oversight.
- Abstract(参考訳): 肺塞栓症 (PE) 登録は, 実践改善研究を加速するが, 放射線学報告のリソース集約的手動抽象化に依存している。
データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。
Llama-3 (L3) の4つの派生型 (3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B) と2つのレビュアーモデル Phi-4 (P4) 14 B と Gemma-3 27 B (G3) がMIC-IV とデューク大学からそれぞれ250のデュアルアノテートCTPEレポートで試験された。
その結果, モデルサイズ, 温度設定, ショット数に対して, 正の予測値 (PPV) と負の予測値 (NPV) が得られた。
全概念の平均精度は0.83 (L3-0 8 B)、0.91 (L3-1 8 B)、0.96 (70 B 変種)、P4 14 B は0.98; G3が一致した。
データセット間で0.03未満の精度が異なり、外部の堅牢性を裏付けている。
両モデル一致解析(L370B+P414B)ではPE存在率PPVは0.95, NPVは0.98, 位置, トロンバス負荷, 右ハートひずみ, 画像品質アーティファクトはそれぞれ0.90, NPVは0.95であった。
個々の概念アノテーションの4%未満は不一致であり、完全な合意は75%以上の報告で観察された。
G3は相容れない。
LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護することができる。
関連論文リスト
- Advanced Deep Learning Techniques for Automated Segmentation of Type B Aortic Dissections [4.545298205355719]
B型大動脈解離切除のための深層学習パイプラインを4本開発した。
Dice Coefficients for TL, 0.88 $pm$ 0.18, 0.47 $pm$ 0.25であった。
論文 参考訳(メタデータ) (2025-06-27T13:38:33Z) - WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - A Multi-Phase Analysis of Blood Culture Stewardship: Machine Learning Prediction, Expert Recommendation Assessment, and LLM Automation [2.25639842999394]
血の文化は、しばしば明確な正当化なしに過度に秩序づけられる。
135483 救急部門 (ED) の血液培養命令について検討し,細菌性貧血のリスクを予測する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2025-04-09T21:12:29Z) - Lung-DDPM: Semantic Layout-guided Diffusion Models for Thoracic CT Image Synthesis [3.433052805056497]
Lung-DDPMは胸部CT画像合成法であり,高忠実度3D合成CT画像を効果的に生成する。
以上の結果から,本手法は画像品質評価や下流肺結節分割作業において,他の最先端生成モデルよりも優れていたことが示唆された。
実験の結果はLung-DDPMの幅広い医療画像応用の可能性を強調した。
論文 参考訳(メタデータ) (2025-02-21T04:38:27Z) - Finetuning and Quantization of EEG-Based Foundational BioSignal Models on ECG and PPG Data for Blood Pressure Estimation [53.2981100111204]
光胸腺撮影と心電図は、連続血圧モニタリング(BP)を可能にする可能性がある。
しかし、データ品質と患者固有の要因の変化のため、正確で堅牢な機械学習(ML)モデルは依然として困難である。
本研究では,1つのモータリティで事前学習したモデルを効果的に利用して,異なる信号タイプの精度を向上させる方法について検討する。
本手法は, 拡張期BPの最先端精度を約1.5倍に向上し, 拡張期BPの精度を1.5倍に向上させる。
論文 参考訳(メタデータ) (2025-02-10T13:33:12Z) - Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。
大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文 参考訳(メタデータ) (2025-01-21T15:41:20Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Improving Diffusion Models for ECG Imputation with an Augmented Template
Prior [43.6099225257178]
ノイズと品質の悪い録音は、モバイルヘルスシステムを使って収集された信号にとって大きな問題である。
近年の研究では、確率的時系列モデルによるECGの欠落値の計算が検討されている。
本稿では,様々な健康状態の事前情報として,テンプレート誘導型拡散確率モデル(DDPM)PulseDiffを提案する。
論文 参考訳(メタデータ) (2023-10-24T11:34:15Z) - Validated respiratory drug deposition predictions from 2D and 3D medical
images with statistical shape models and convolutional neural networks [47.187609203210705]
患者固有の沈着モデリングのための自動計算フレームワークを開発し,検証することを目的としている。
2次元胸部X線と3次元CT画像から3次元患者の呼吸動態を生成できる画像処理手法が提案されている。
論文 参考訳(メタデータ) (2023-03-02T07:47:07Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Application of the nnU-Net for automatic segmentation of lung lesion on
CT images, and implication on radiomic models [1.8231394717039833]
非小細胞肺癌患者のCT画像にディープラーニング自動分画法を適用した。
生存放射線モデルの性能評価において,手動と自動セグメンテーションの併用も検討した。
論文 参考訳(メタデータ) (2022-09-24T15:04:23Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Deep Learning to Quantify Pulmonary Edema in Chest Radiographs [7.121765928263759]
肺浮腫の重症度を胸部X線写真で分類する機械学習モデルを開発した。
深層学習モデルは、大きな胸部X線写真データセットで訓練された。
論文 参考訳(メタデータ) (2020-08-13T15:45:44Z) - Deep Learning Based Detection and Localization of Intracranial Aneurysms
in Computed Tomography Angiography [5.973882600944421]
初期動脈瘤検出のための3D領域提案ネットワークと偽陽性縮小のための3D DenseNetという2段階モデルが実装された。
本モデルでは,0.25FPPV,最高F-1スコアと比較すると,統計的に高い精度,感度,特異性を示した。
論文 参考訳(メタデータ) (2020-05-22T10:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。