論文の概要: Automating Clinical Information Retrieval from Finnish Electronic Health Records Using Large Language Models
- arxiv url: http://arxiv.org/abs/2603.26434v1
- Date: Fri, 27 Mar 2026 14:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.530773
- Title: Automating Clinical Information Retrieval from Finnish Electronic Health Records Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたフィンランドの電子健康記録からの臨床情報検索の自動化
- Authors: Mikko Saukkoriipi, Nicole Hernandez, Jaakko Sahlsten, Kimmo Kaski, Otso Arponen,
- Abstract要約: ローカルにデプロイ可能なフレームワークは、外部データ転送なしでEHRから直接臨床質問に答える。
オープンソースの大規模言語モデル(LLM)は、4Bから70Bまでのパラメータを完全にオフラインでベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinicians often need to retrieve patient-specific information from electronic health records (EHRs), a task that is time-consuming and error-prone. We present a locally deployable Clinical Contextual Question Answering (CCQA) framework that answers clinical questions directly from EHRs without external data transfer. Open-source large language models (LLMs) ranging from 4B to 70B parameters were benchmarked under fully offline conditions using 1,664 expert-annotated question-answer pairs derived from records of 183 patients. The dataset consisted predominantly of Finnish clinical text. In free-text generation, Llama-3.1-70B achieved 95.3% accuracy and 97.3% consistency across semantically equivalent question variants, while the smaller Qwen3-30B-A3B-2507 model achieved comparable performance. In a multiple-choice setting, models showed similar accuracy but variable calibration. Low-precision quantization (4-bit and 8-bit) preserved predictive performance while reducing GPU memory requirements and improving deployment feasibility. Clinical evaluation identified clinically significant errors in 2.9% of outputs, and semantically equivalent questions occasionally yielded discordant responses, including instances where one formulation was correct and the other contained a clinically significant error (0.96% of cases). These findings demonstrate that locally hosted open-source LLMs can accurately retrieve patient-specific information from EHRs using natural-language queries, while highlighting the need for validation and human oversight in clinical deployment.
- Abstract(参考訳): 臨床医は電子健康記録(EHR)から患者固有の情報を取得する必要があることが多い。
本稿では,外部データ転送を伴わないEHRから臨床質問を直接回答する,局所展開可能な臨床コンテキスト質問応答(CCQA)フレームワークを提案する。
オープンソースの大規模言語モデル (LLM) は, 4B から 70B までのパラメータを, 183 名の患者の記録から抽出した 1,664 名の専門家による質問応答対を用いて, 完全にオフラインの条件下でベンチマークした。
データセットは主にフィンランドの臨床的テキストで構成されていた。
フリーテキスト生成では、Llama-3.1-70Bは95.3%の精度と97.3%の一貫性を実現し、Qwen3-30B-A3B-2507は同等のパフォーマンスを達成した。
複数選択設定では、モデルも同様の精度だが可変キャリブレーションを示した。
低精度の量子化(4ビットと8ビット)は、GPUメモリの要求を減らし、デプロイ可能性を改善しながら予測性能を保った。
臨床的評価では、アウトプットの2.9%に臨床的に有意な誤りが認められ、意味論的に等価な質問では、ある定式化が正しい場合と、他の例が臨床的に有意な誤り(0.96%)を含む不一致の反応が生じることもあった。
これらの結果から,ローカルにホストされたオープンソースLSMは,患者固有の情報を自然言語クエリを用いて正確に検索し,臨床展開における検証と人的監視の必要性を強調した。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data [0.0]
臨床試験における患者採用は、複雑な資格基準と労働集約性チャートのレビューによって妨げられている。
EHRから抽出した未処理文書を用いて,患者と医療のマッチングを自動化する統合フリーのLLMパイプラインを提案する。
提案手法は,(1)最も複雑な基準の評価を可能にする新たな推論-LLMパラダイム,(2)画像からテキストへの変換を欠くことなく医療記録を解釈する最新のLCMの視覚的能力,(3)効率的な医療記録検索のためのマルチモーダル埋め込みを活用する。
論文 参考訳(メタデータ) (2025-03-19T16:12:11Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - End-To-End Clinical Trial Matching with Large Language Models [0.6151041580858937]
大言語モデル(LLM)を用いた臨床試験のためのエンドツーエンドパイプラインを提案する。
本研究は,93.3%の症例において関連する候補試験を同定し,88.0%の予備的精度を達成している。
私たちの完全なエンドツーエンドパイプラインは、自律的または人間の監督の下で運用することができ、オンコロジーに限定されません。
論文 参考訳(メタデータ) (2024-07-18T12:36:26Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。