論文の概要: Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports
- arxiv url: http://arxiv.org/abs/2506.00060v1
- Date: Thu, 29 May 2025 11:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.175071
- Title: Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports
- Title(参考訳): 臨床CMR画像からの診断情報の抽出に関するプライバシー保護オープンソースLCMの比較分析
- Authors: Sina Amirrajab, Volker Vehof, Michael Bietenbeck, Ali Yilmaz,
- Abstract要約: 9つのオープンソースのLarge Language Models (LLMs) について, 患者を診断し, 様々な診断カテゴリーに分類する能力について検討した。
GoogleのGemma2モデルは平均F1スコアが0.98で、Qwen2.5:32BとDeepseekR1-32Bはそれぞれ0.96と0.95だった。
- 参考スコア(独自算出の注目度): 0.49998148477760973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: We investigated the utilization of privacy-preserving, locally-deployed, open-source Large Language Models (LLMs) to extract diagnostic information from free-text cardiovascular magnetic resonance (CMR) reports. Materials and Methods: We evaluated nine open-source LLMs on their ability to identify diagnoses and classify patients into various cardiac diagnostic categories based on descriptive findings in 109 clinical CMR reports. Performance was quantified using standard classification metrics including accuracy, precision, recall, and F1 score. We also employed confusion matrices to examine patterns of misclassification across models. Results: Most open-source LLMs demonstrated exceptional performance in classifying reports into different diagnostic categories. Google's Gemma2 model achieved the highest average F1 score of 0.98, followed by Qwen2.5:32B and DeepseekR1-32B with F1 scores of 0.96 and 0.95, respectively. All other evaluated models attained average scores above 0.93, with Mistral and DeepseekR1-7B being the only exceptions. The top four LLMs outperformed our board-certified cardiologist (F1 score of 0.94) across all evaluation metrics in analyzing CMR reports. Conclusion: Our findings demonstrate the feasibility of implementing open-source, privacy-preserving LLMs in clinical settings for automated analysis of imaging reports, enabling accurate, fast and resource-efficient diagnostic categorization.
- Abstract(参考訳): 目的: 自由テキスト心血管磁気共鳴(CMR)レポートから診断情報を抽出するために, プライバシ保存, ローカルデプロイ, オープンソースLarge Language Models (LLMs) の利用について検討した。
対象と方法: 臨床CMR報告109例に記載された記述的所見に基づいて, 患者を診断し, 様々な診断カテゴリーに分類する能力について, 9つのオープンソースLCMを評価した。
精度、精度、リコール、F1スコアを含む標準的な分類基準を用いて、性能を定量化した。
また,モデル間の誤分類パターンを調べるために,混乱行列を用いた。
結果: オープンソース LLM の多くは, 診断カテゴリーの分類において, 例外的な性能を示した。
GoogleのGemma2モデルは平均F1スコアが0.98で、Qwen2.5:32BとDeepseekR1-32Bはそれぞれ0.96と0.95だった。
他の評価されたモデルは平均スコアが0.93以上に達し、MistralとDeepseekR1-7Bが唯一の例外となった。
上位4つのLSMは、CMRレポートの分析において、すべての評価指標で、我々のボード認定心臓科医(F1スコア0.94)を上回った。
結論: 画像診断の自動解析において, オープンソースでプライバシ保護されたLCMを臨床環境に導入し, 精度, 迅速, 資源効率の診断分類を可能にする可能性が示唆された。
関連論文リスト
- Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports [4.477840500181267]
IEMに着目したケースレポートの高密度情報抽出のためのエキスパートアノテートデータセットであるCaseReportBenchを紹介する。
我々は、カテゴリ固有のプロンプトやサブヘッダーによるデータ統合のような新しいアプローチを導入し、様々なモデルとプロンプト戦略を評価する。
臨床評価の結果,LSMは症例報告から臨床的に関連性のある詳細を抽出し,稀な疾患の診断と管理を支援することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T20:21:32Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - GEMA-Score: Granular Explainable Multi-Agent Score for Radiology Report Evaluation [8.071354543390274]
本稿では,粒状説明可能マルチエージェントスコア(GEMA-Score)を提案する。
GEMA-Scoreは大規模言語モデルに基づくマルチエージェントワークフローを通じて客観的定量化と主観評価を行う。
実験により、GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - Learning to diagnose common thorax diseases on chest radiographs from
radiology reports in Vietnamese [0.33598755777055367]
ベトナムの放射線学報告から情報を抽出し,胸部X線(CXR)画像の正確なラベルを提供するデータ収集・アノテーションパイプラインを提案する。
このことは、ベトナムの放射線学者や臨床医が、国によって異なる可能性のある内因性診断カテゴリと密接に一致したデータに注釈を付けることで、ベトナムの放射線技師や臨床医に利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2022-09-11T06:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。