Fugu-MT 論文翻訳(概要): Scalable Medication Extraction and Discontinuation Identification from Electronic Health Records Using Large Language Models

論文の概要: Scalable Medication Extraction and Discontinuation Identification from Electronic Health Records Using Large Language Models

arxiv url: http://arxiv.org/abs/2506.11137v1
Date: Tue, 10 Jun 2025 22:00:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 17:50:49.502851
Title: Scalable Medication Extraction and Discontinuation Identification from Electronic Health Records Using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた電子健康記録からのスケーラブルなメディケイト抽出と中止同定
Authors: Chong Shao, Douglas Snyder, Chiran Li, Bowen Gu, Kerry Ngan, Chun-Ting Yang, Jiageng Wu, Richard Wyss, Kueiyu Joshua Lin, Jie Yang,
Abstract要約: EHRノートから医薬品の抽出と医薬品の分類において,先進的なオープンソースおよびプロプライエタリな大規模言語モデル(LLMs)を評価した。 GPT-4oはゼロショット設定で全てのタスクの平均F1スコアを継続的に達成した。オープンソースモデルに続いて、Llama-3.1-70B-Instructは医薬品のステータス分類において最高性能を達成した。
参考スコア（独自算出の注目度）: 4.179482990737624
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Identifying medication discontinuations in electronic health records (EHRs) is vital for patient safety but is often hindered by information being buried in unstructured notes. This study aims to evaluate the capabilities of advanced open-sourced and proprietary large language models (LLMs) in extracting medications and classifying their medication status from EHR notes, focusing on their scalability on medication information extraction without human annotation. We collected three EHR datasets from diverse sources to build the evaluation benchmark. We evaluated 12 advanced LLMs and explored multiple LLM prompting strategies. Performance on medication extraction, medication status classification, and their joint task (extraction then classification) was systematically compared across all experiments. We found that LLMs showed promising performance on the medication extraction and discontinuation classification from EHR notes. GPT-4o consistently achieved the highest average F1 scores in all tasks under zero-shot setting - 94.0% for medication extraction, 78.1% for discontinuation classification, and 72.7% for the joint task. Open-sourced models followed closely, Llama-3.1-70B-Instruct achieved the highest performance in medication status classification on the MIV-Med dataset (68.7%) and in the joint task on both the Re-CASI (76.2%) and MIV-Med (60.2%) datasets. Medical-specific LLMs demonstrated lower performance compared to advanced general-domain LLMs. Few-shot learning generally improved performance, while CoT reasoning showed inconsistent gains. LLMs demonstrate strong potential for medication extraction and discontinuation identification on EHR notes, with open-sourced models offering scalable alternatives to proprietary systems and few-shot can further improve LLMs' capability.
Abstract（参考訳）: 電子健康記録(EHR)における薬剤の消毒は、患者の安全には不可欠であるが、構造化されていないノートに埋もれている情報によって、しばしば妨げられる。本研究の目的は, EHRノートから医薬品を抽出し, 医薬品状態の分類を行うための, 高度なオープンソースおよびプロプライエタリな大規模言語モデル(LLM)の能力を評価することである。評価ベンチマークを構築するために、さまざまなソースから3つのEHRデータセットを収集しました。先進LSMを12種類評価し,複数のLSM促進戦略を探索した。薬物抽出, 薬物状態分類, 共同作業(抽出後の分類)の成績を, 全実験で系統的に比較した。 EHRノートから薬剤の抽出・中止分類について,LSMは有望な性能を示した。 GPT-4oは、ゼロショット設定で全てのタスクの平均F1スコアを一貫して達成し、薬品抽出では94.0%、中止分類では78.1%、共同作業では72.7%であった。オープンソースモデルに続いて、Llama-3.1-70B-InstructはMIV-Medデータセット(68.7%)とRe-CASIデータセット(76.2%)とMIV-Medデータセット(60.2%)の併用タスクにおいて、医薬品のステータス分類において最高性能を達成した。医用 LLM は, 先進的な汎用 LLM と比較して低い性能を示した。 CoT推論では不整合がみられた。 LLMは、独自のシステムに代わるスケーラブルな代替品を提供するオープンソースモデルで、LLMの能力をさらに向上させることができる。

関連論文リスト

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Large Language Models Powered Multiagent Ensemble for Mitigating Hallucination and Efficient Atrial Fibrillation Annotation of ECG Reports [10.319249991495004]
本研究では,LLMを用いたマルチエージェントアンサンブル法を導入し,幻覚とデータラベリングの課題に対処する。アンサンブルLLMと自然言語処理を用いて、推定精度98.2%の623,566ECGのMIMIC-IV ECGデータセットをラベル付けした。我々は,1,405EHR臨床ノートの社会史セクションからSDOHを同定するために,アンサンブルLLMs法を適用し,競争性能も向上した。
論文参考訳（メタデータ） (2024-10-21T22:12:00Z)
EHRmonize: A Framework for Medical Concept Abstraction from Electronic Health Records using Large Language Models [21.637722557192482]
EHRデータから医療概念を抽象化するために,大規模言語モデルを活用するフレームワークであるEHRmonizeを紹介する。本研究は,2つの自由テキスト抽出と6つのバイナリ分類タスクにおいて,実世界のEHRデータベースからの薬物データを用いて5つのLSMを評価する。 GPT-4oはジェネリックルート名同定において97%,ジェネリックドラッグ名では82%,抗生物質のバイナリ分類では100%の精度を達成した。
論文参考訳（メタデータ） (2024-06-28T21:39:20Z)
Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。 LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文参考訳（メタデータ） (2024-05-23T16:33:18Z)
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。その結果,約80%の精度で,領域間での変動が認められた。
論文参考訳（メタデータ） (2024-05-23T11:24:23Z)
BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。 textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。 textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文参考訳（メタデータ） (2024-05-01T12:01:39Z)
Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。