Fugu-MT 論文翻訳(概要): Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

論文の概要: Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

arxiv url: http://arxiv.org/abs/2503.21004v3
Date: Mon, 11 Aug 2025 23:09:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-13 18:56:18.560491
Title: Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters
Title（参考訳）: 肺塞栓症登録における臨床抽象化の自動化のための大規模言語モデルの評価:モデルサイズ,バージョン,パラメータ間のパフォーマンス
Authors: Mahmoud Alwakeel, Emory Buck, Jonathan G. Martin, Imran Aslam, Sudarshan Rajagopal, Jian Pei, Mihai V. Podgoreanu, Christopher J. Lindsell, An-Kwok Ian Wong,
Abstract要約: データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。 LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護します。
参考スコア（独自算出の注目度）: 16.74673750576054
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Pulmonary embolism (PE) registries accelerate practice-improving research but depend on resource-intensive manual abstraction of radiology reports. We evaluated whether openly available large-language models (LLMs) can automate concept extraction from computed-tomography PE (CTPE) reports without sacrificing data quality. Four Llama-3 (L3) variants (3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B) and two reviewer models Phi-4 (P4) 14 B and Gemma-3 27 B (G3) were tested on 250 dual-annotated CTPE reports each from MIMIC-IV and Duke University. Outcomes were accuracy, positive predictive value (PPV), and negative predictive value (NPV) versus a human gold standard across model sizes, temperature settings, and shot counts. Mean accuracy across all concepts increased with scale: 0.83 (L3-0 8 B), 0.91 (L3-1 8 B), and 0.96 for both 70 B variants; P4 14 B achieved 0.98; G3 matched. Accuracy differed by < 0.03 between datasets, underscoring external robustness. In dual-model concordance analysis (L3 70 B + P4 14 B), PE-presence PPV was >= 0.95 and NPV >= 0.98, while location, thrombus burden, right-heart strain, and image-quality artifacts each maintained PPV >= 0.90 and NPV >= 0.95. Fewer than 4% of individual concept annotations were discordant, and complete agreement was observed in more than 75% of reports. G3 performed comparably. LLMs therefore offer a scalable, accurate solution for PE registry abstraction, and a dual-model review workflow can further safeguard data quality with minimal human oversight.
Abstract（参考訳）: 肺塞栓症 (PE) 登録は, 実践改善研究を加速するが, 放射線学報告のリソース集約的手動抽象化に依存している。データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。 Llama-3 (L3) の4つの派生型 (3.0 8 B, 3.1 8 B, 3.1 70 B, 3.3 70 B) と2つのレビュアーモデル Phi-4 (P4) 14 B と Gemma-3 27 B (G3) がMIC-IV とデューク大学からそれぞれ250のデュアルアノテートCTPEレポートで試験された。その結果, モデルサイズ, 温度設定, ショット数に対して, 正の予測値 (PPV) と負の予測値 (NPV) が得られた。全概念の平均精度は0.83 (L3-0 8 B)、0.91 (L3-1 8 B)、0.96 (70 B 変種)、P4 14 B は0.98; G3が一致した。データセット間で0.03未満の精度が異なり、外部の堅牢性を裏付けている。両モデル一致解析(L370B+P414B)ではPE存在率PPVは0.95, NPVは0.98, 位置, トロンバス負荷, 右ハートひずみ, 画像品質アーティファクトはそれぞれ0.90, NPVは0.95であった。個々の概念アノテーションの4%未満は不一致であり、完全な合意は75%以上の報告で観察された。 G3は相容れない。 LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護することができる。

関連論文リスト

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文参考訳（メタデータ） (2026-03-01T04:37:48Z)
Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文参考訳（メタデータ） (2026-01-07T23:35:24Z)
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.15649744496834]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。 OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文参考訳（メタデータ） (2025-12-11T15:47:38Z)
Advanced Deep Learning Techniques for Automated Segmentation of Type B Aortic Dissections [4.545298205355719]
B型大動脈解離切除のための深層学習パイプラインを4本開発した。 Dice Coefficients for TL, 0.88 $pm$ 0.18, 0.47 $pm$ 0.25であった。
論文参考訳（メタデータ） (2025-06-27T13:38:33Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
A Multi-Phase Analysis of Blood Culture Stewardship: Machine Learning Prediction, Expert Recommendation Assessment, and LLM Automation [2.25639842999394]
血の文化は、しばしば明確な正当化なしに過度に秩序づけられる。 135483 救急部門 (ED) の血液培養命令について検討し,細菌性貧血のリスクを予測する機械学習モデルを開発した。
論文参考訳（メタデータ） (2025-04-09T21:12:29Z)
Lung-DDPM: Semantic Layout-guided Diffusion Models for Thoracic CT Image Synthesis [3.433052805056497]
Lung-DDPMは胸部CT画像合成法であり,高忠実度3D合成CT画像を効果的に生成する。以上の結果から,本手法は画像品質評価や下流肺結節分割作業において,他の最先端生成モデルよりも優れていたことが示唆された。実験の結果はLung-DDPMの幅広い医療画像応用の可能性を強調した。
論文参考訳（メタデータ） (2025-02-21T04:38:27Z)
Finetuning and Quantization of EEG-Based Foundational BioSignal Models on ECG and PPG Data for Blood Pressure Estimation [53.2981100111204]
光胸腺撮影と心電図は、連続血圧モニタリング(BP)を可能にする可能性がある。しかし、データ品質と患者固有の要因の変化のため、正確で堅牢な機械学習(ML)モデルは依然として困難である。本研究では,1つのモータリティで事前学習したモデルを効果的に利用して,異なる信号タイプの精度を向上させる方法について検討する。本手法は, 拡張期BPの最先端精度を約1.5倍に向上し, 拡張期BPの精度を1.5倍に向上させる。
論文参考訳（メタデータ） (2025-02-10T13:33:12Z)
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文参考訳（メタデータ） (2025-01-21T15:41:20Z)
Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文参考訳（メタデータ） (2024-11-11T13:13:39Z)
Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models [0.0]
Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
論文参考訳（メタデータ） (2024-11-11T04:45:48Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文参考訳（メタデータ） (2024-09-15T15:21:45Z)
Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。 Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文参考訳（メタデータ） (2024-09-13T20:12:29Z)
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文参考訳（メタデータ） (2024-08-25T14:50:47Z)
Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。 iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文参考訳（メタデータ） (2024-07-10T19:17:23Z)
Improving Diffusion Models for ECG Imputation with an Augmented Template Prior [43.6099225257178]
ノイズと品質の悪い録音は、モバイルヘルスシステムを使って収集された信号にとって大きな問題である。近年の研究では、確率的時系列モデルによるECGの欠落値の計算が検討されている。本稿では,様々な健康状態の事前情報として,テンプレート誘導型拡散確率モデル(DDPM)PulseDiffを提案する。
論文参考訳（メタデータ） (2023-10-24T11:34:15Z)
Validated respiratory drug deposition predictions from 2D and 3D medical images with statistical shape models and convolutional neural networks [47.187609203210705]
患者固有の沈着モデリングのための自動計算フレームワークを開発し,検証することを目的としている。 2次元胸部X線と3次元CT画像から3次元患者の呼吸動態を生成できる画像処理手法が提案されている。
論文参考訳（メタデータ） (2023-03-02T07:47:07Z)
Clinical Deterioration Prediction in Brazilian Hospitals Based on Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文参考訳（メタデータ） (2022-12-17T23:29:14Z)
Application of the nnU-Net for automatic segmentation of lung lesion on CT images, and implication on radiomic models [1.8231394717039833]
非小細胞肺癌患者のCT画像にディープラーニング自動分画法を適用した。生存放射線モデルの性能評価において,手動と自動セグメンテーションの併用も検討した。
論文参考訳（メタデータ） (2022-09-24T15:04:23Z)
Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。トレーニングコーパスでは, LMの生成能力を活用することを提案する。次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文参考訳（メタデータ） (2022-02-08T22:10:40Z)
Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文参考訳（メタデータ） (2021-11-18T00:43:41Z)
MSED: a multi-modal sleep event detection model for clinical sleep analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文参考訳（メタデータ） (2021-01-07T13:08:44Z)
Deep Learning to Quantify Pulmonary Edema in Chest Radiographs [7.121765928263759]
肺浮腫の重症度を胸部X線写真で分類する機械学習モデルを開発した。深層学習モデルは、大きな胸部X線写真データセットで訓練された。
論文参考訳（メタデータ） (2020-08-13T15:45:44Z)
Deep Learning Based Detection and Localization of Intracranial Aneurysms in Computed Tomography Angiography [5.973882600944421]
初期動脈瘤検出のための3D領域提案ネットワークと偽陽性縮小のための3D DenseNetという2段階モデルが実装された。本モデルでは,0.25FPPV,最高F-1スコアと比較すると,統計的に高い精度,感度,特異性を示した。
論文参考訳（メタデータ） (2020-05-22T10:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。