Fugu-MT 論文翻訳(概要): Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

論文の概要: Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters

arxiv url: http://arxiv.org/abs/2503.21004v2
Date: Thu, 26 Jun 2025 02:02:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 15:38:00.166389
Title: Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters
Title（参考訳）: 肺塞栓症登録における臨床抽象化の自動化のための大規模言語モデルの評価:モデルサイズ,バージョン,パラメータ間のパフォーマンス
Authors: Mahmoud Alwakeel, Emory Buck, Jonathan G. Martin, Imran Aslam, Sudarshan Rajagopal, Jian Pei, Mihai V. Podgoreanu, Christopher J. Lindsell, An-Kwok Ian Wong,
Abstract要約: 肺塞栓症登録は、研究の改善を加速するが、放射線医学報告の労働集約的手作業による抽象化に依存している。データ品質を損なうことなく,計算トモグラフィPE(CTPE)レポートから概念抽出を自動化できるかを検討した。 4つのラマ3型(3.0 8B, 3.1 8B, 3.1 70B, 3.3 70B)と1つのレビュアーモデルであるPhi 4 14Bは、MIMIC IVとデューク大学からそれぞれ250個の注釈付きCTPEレポートで試験された。正の予測値 (PPV) と負の予測値 (NPV) を人体金標準と比較し, 精度, 正の予測値 (PPV) を計測した。
参考スコア（独自算出の注目度）: 16.74673750576054
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Pulmonary embolism (PE) registries accelerate practice improving research but rely on labor intensive manual abstraction of radiology reports. We examined whether openly available large language models (LLMs) can automate concept extraction from computed tomography PE (CTPE) reports without loss of data quality. Four Llama 3 variants (3.0 8B, 3.1 8B, 3.1 70B, 3.3 70B) and one reviewer model, Phi 4 14B, were tested on 250 dual annotated CTPE reports from each of MIMIC IV and Duke University. Accuracy, positive predictive value (PPV) and negative predictive value (NPV) versus a human gold standard were measured across model size, temperature and shot count. Mean accuracy rose with scale: 0.83 (3.0 8B), 0.91 (3.1 8B) and 0.96 for both 70B variants; Phi 4 14B reached 0.98. Accuracy differed by less than 0.03 between datasets, indicating external robustness. In dual model concordance (L3 70B plus Phi 4 14B) PPV for PE presence was at least 0.95 and NPV at least 0.98, while location, thrombus burden, right heart strain and image quality artifacts each achieved PPV of at least 0.90 and NPV of at least 0.95. Fewer than four percent of individual concept annotations were discordant, and full agreement occurred in more than seventy five percent of reports. Large language models therefore provide a scalable, accurate solution for PE registry abstraction, and a dual model review workflow can safeguard data quality with minimal human oversight.
Abstract（参考訳）: 肺塞栓症 (PE) 登録は, 研究改善の実践を加速するが, 放射線学報告の労働集約的手作業による抽象化に依存している。データ品質を損なうことなく,計算トモグラフィPE(CTPE)レポートから概念抽出を自動化できるかを検討した。 4つのラマ3型(3.0 8B, 3.1 8B, 3.1 70B, 3.3 70B)と1つのレビュアーモデルであるPhi 4 14Bは、MIMIC IVとデューク大学のそれぞれから250個の注釈付きCTPEレポートで試験された。正の予測値(PPV)と負の予測値(NPV)を,モデルサイズ,温度,ショット数で測定した。平均精度は0.83 (3.0 8B)、0.91 (3.1 8B)、0.96で上昇し、Phi 4 14Bは0.98に達した。データセット間の精度は0.03未満で、外部の堅牢性を示している。両モデル一致(L370B+Phi414B)では、PE存在下でのPPVは少なくとも0.95、NPVは少なくとも0.98であり、位置、血栓負荷、右心歪、画像品質アーチファクトはそれぞれ0.90、NPVは少なくとも0.95であった。個々の概念アノテーションの4%以下は不一致であり、完全な合意は報告の75%以上で達成された。したがって、大規模な言語モデルは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、最小限の人間の監視でデータ品質を保護することができる。

関連論文リスト

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文参考訳（メタデータ） (2026-03-01T04:37:48Z)
Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文参考訳（メタデータ） (2026-01-07T23:35:24Z)
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.15649744496834]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。 OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文参考訳（メタデータ） (2025-12-11T15:47:38Z)
Advanced Deep Learning Techniques for Automated Segmentation of Type B Aortic Dissections [4.545298205355719]
B型大動脈解離切除のための深層学習パイプラインを4本開発した。 Dice Coefficients for TL, 0.88 $pm$ 0.18, 0.47 $pm$ 0.25であった。
論文参考訳（メタデータ） (2025-06-27T13:38:33Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
A Multi-Phase Analysis of Blood Culture Stewardship: Machine Learning Prediction, Expert Recommendation Assessment, and LLM Automation [2.25639842999394]
血の文化は、しばしば明確な正当化なしに過度に秩序づけられる。 135483 救急部門 (ED) の血液培養命令について検討し,細菌性貧血のリスクを予測する機械学習モデルを開発した。
論文参考訳（メタデータ） (2025-04-09T21:12:29Z)
Lung-DDPM: Semantic Layout-guided Diffusion Models for Thoracic CT Image Synthesis [3.433052805056497]
Lung-DDPMは胸部CT画像合成法であり,高忠実度3D合成CT画像を効果的に生成する。以上の結果から,本手法は画像品質評価や下流肺結節分割作業において,他の最先端生成モデルよりも優れていたことが示唆された。実験の結果はLung-DDPMの幅広い医療画像応用の可能性を強調した。
論文参考訳（メタデータ） (2025-02-21T04:38:27Z)
Finetuning and Quantization of EEG-Based Foundational BioSignal Models on ECG and PPG Data for Blood Pressure Estimation [53.2981100111204]
光胸腺撮影と心電図は、連続血圧モニタリング(BP)を可能にする可能性がある。しかし、データ品質と患者固有の要因の変化のため、正確で堅牢な機械学習(ML)モデルは依然として困難である。本研究では,1つのモータリティで事前学習したモデルを効果的に利用して,異なる信号タイプの精度を向上させる方法について検討する。本手法は, 拡張期BPの最先端精度を約1.5倍に向上し, 拡張期BPの精度を1.5倍に向上させる。
論文参考訳（メタデータ） (2025-02-10T13:33:12Z)
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文参考訳（メタデータ） (2025-01-21T15:41:20Z)
Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文参考訳（メタデータ） (2024-11-11T13:13:39Z)
Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models [0.0]
Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
論文参考訳（メタデータ） (2024-11-11T04:45:48Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文参考訳（メタデータ） (2024-09-15T15:21:45Z)
Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。 Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文参考訳（メタデータ） (2024-09-13T20:12:29Z)
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文参考訳（メタデータ） (2024-08-25T14:50:47Z)
Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。 iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文参考訳（メタデータ） (2024-07-10T19:17:23Z)
Improving Diffusion Models for ECG Imputation with an Augmented Template Prior [43.6099225257178]
ノイズと品質の悪い録音は、モバイルヘルスシステムを使って収集された信号にとって大きな問題である。近年の研究では、確率的時系列モデルによるECGの欠落値の計算が検討されている。本稿では,様々な健康状態の事前情報として,テンプレート誘導型拡散確率モデル(DDPM)PulseDiffを提案する。
論文参考訳（メタデータ） (2023-10-24T11:34:15Z)
Validated respiratory drug deposition predictions from 2D and 3D medical images with statistical shape models and convolutional neural networks [47.187609203210705]
患者固有の沈着モデリングのための自動計算フレームワークを開発し,検証することを目的としている。 2次元胸部X線と3次元CT画像から3次元患者の呼吸動態を生成できる画像処理手法が提案されている。
論文参考訳（メタデータ） (2023-03-02T07:47:07Z)
Clinical Deterioration Prediction in Brazilian Hospitals Based on Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文参考訳（メタデータ） (2022-12-17T23:29:14Z)
Application of the nnU-Net for automatic segmentation of lung lesion on CT images, and implication on radiomic models [1.8231394717039833]
非小細胞肺癌患者のCT画像にディープラーニング自動分画法を適用した。生存放射線モデルの性能評価において,手動と自動セグメンテーションの併用も検討した。
論文参考訳（メタデータ） (2022-09-24T15:04:23Z)
Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。トレーニングコーパスでは, LMの生成能力を活用することを提案する。次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文参考訳（メタデータ） (2022-02-08T22:10:40Z)
Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文参考訳（メタデータ） (2021-11-18T00:43:41Z)
MSED: a multi-modal sleep event detection model for clinical sleep analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文参考訳（メタデータ） (2021-01-07T13:08:44Z)
Deep Learning to Quantify Pulmonary Edema in Chest Radiographs [7.121765928263759]
肺浮腫の重症度を胸部X線写真で分類する機械学習モデルを開発した。深層学習モデルは、大きな胸部X線写真データセットで訓練された。
論文参考訳（メタデータ） (2020-08-13T15:45:44Z)
Deep Learning Based Detection and Localization of Intracranial Aneurysms in Computed Tomography Angiography [5.973882600944421]
初期動脈瘤検出のための3D領域提案ネットワークと偽陽性縮小のための3D DenseNetという2段階モデルが実装された。本モデルでは,0.25FPPV,最高F-1スコアと比較すると,統計的に高い精度,感度,特異性を示した。
論文参考訳（メタデータ） (2020-05-22T10:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。