論文の概要: Customizing Open Source LLMs for Quantitative Medication Attribute Extraction across Heterogeneous EHR Systems
- arxiv url: http://arxiv.org/abs/2510.21027v1
- Date: Thu, 23 Oct 2025 22:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.332446
- Title: Customizing Open Source LLMs for Quantitative Medication Attribute Extraction across Heterogeneous EHR Systems
- Title(参考訳): 不均一EHRシステムにおける定量的メディケイト属性抽出のためのオープンソースLLMのカスタマイズ
- Authors: Zhe Fei, Mehmet Yigit Turali, Shreyas Rajesh, Xinyang Dai, Huyen Pham, Pavan Holur, Yuhui Zhu, Larissa Mooney, Yih-Ing Hser, Vwani Roychowdhury,
- Abstract要約: 鍵となる処方則属性は、異種EHRシステムにおける異なるフォーマットフィールドとフリーテキストノートに散在する。
Llama, Qwen, Gemma, MedGemma など,オープンソースの大規模言語モデル (LLM) をカスタマイズして, MOUD 処方薬属性の統一セットを抽出するフレームワークを提案する。
パイプラインは固定スキーマでレコードを直接処理し、続いて軽量な正規化とクロスフィールドチェックを行います。
- 参考スコア(独自算出の注目度): 4.279217079039312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Harmonizing medication data across Electronic Health Record (EHR) systems is a persistent barrier to monitoring medications for opioid use disorder (MOUD). In heterogeneous EHR systems, key prescription attributes are scattered across differently formatted fields and freetext notes. We present a practical framework that customizes open source large language models (LLMs), including Llama, Qwen, Gemma, and MedGemma, to extract a unified set of MOUD prescription attributes (prescription date, drug name, duration, total quantity, daily quantity, and refills) from heterogeneous, site specific data and compute a standardized metric of medication coverage, \emph{MOUD days}, per patient. Our pipeline processes records directly in a fixed JSON schema, followed by lightweight normalization and cross-field consistency checks. We evaluate the system on prescription level EHR data from five clinics in a national OUD study (25{,}605 records from 1{,}257 patients), using a previously annotated benchmark of 10{,}369 records (776 patients) as the ground truth. Performance is reported as coverage (share of records with a valid, matchable output) and record-level exact-match accuracy. Larger models perform best overall: Qwen2.5-32B achieves \textbf{93.4\%} coverage with \textbf{93.0\%} exact-match accuracy across clinics, and MedGemma-27B attains \textbf{93.1\%}/\textbf{92.2\%}. A brief error review highlights three common issues and fixes: imputing missing dosage fields using within-drug norms, handling monthly/weekly injectables (e.g., Vivitrol) by setting duration from the documented schedule, and adding unit checks to prevent mass units (e.g., ``250 g'') from being misread as daily counts. By removing brittle, site-specific ETL and supporting local, privacy-preserving deployment, this approach enables consistent cross-site analyses of MOUD exposure, adherence, and retention in real-world settings.
- Abstract(参考訳): 電子健康記録(Electronic Health Record, EHR)システム間での薬物データの調和は、オピオイド使用障害(MOUD)の薬物モニタリングにおける永続的な障壁である。
ヘテロジニアスなEHRシステムでは、キー処方則属性は異なるフォーマットのフィールドとフリーテキストのノートに散らばっている。
Llama, Qwen, Gemma, MedGemmaなどのオープンソースの大規模言語モデル(LLM)をカスタマイズし, 異種サイト固有データからMOUD処方薬属性(処方日, 薬物名, 総量, 日量, 補充量)の統一セットを抽出し, 服用範囲の標準化指標であるemph{MOUD days}を患者ごとに計算する。
パイプラインは、固定されたJSONスキーマでレコードを直接処理し、続いて軽量な正規化とクロスフィールド整合性チェックを実行します。
1{,}257患者25{,}605名を対象に,全国のOUD研究における5つの診療所の処方薬レベルEHRデータ(25{,}605名)を,10{,}369名(776名)の注釈付きベンチマークを用いて評価した。
パフォーマンスは、カバレッジ(有効で一致可能な出力を持つレコードの共有)と、レコードレベルの正確なマッチ精度として報告される。
Qwen2.5-32B は、クリニック全体での精度で \textbf{93.4\%} のカバレッジを達成し、MedGemma-27B は \textbf{93.1\%}/\textbf{92.2\%} を達成する。
ドキュメント化されたスケジュールから時間を設定することで、月毎/週毎のインジェクタブル(例:Vivitrol)を処理し、質量単位(例:`250 g''')が毎日のカウントとして読まれないようにするためのユニットチェックを追加する。
サイト固有のETLの脆さを排除し、ローカルなプライバシ保護デプロイメントをサポートすることにより、現実世界の設定におけるMOUD露光、付着、保持の一貫性のあるクロスサイト分析を可能にする。
関連論文リスト
- Align Your Query: Representation Alignment for Multimodality Medical Object Detection [55.86070915426998]
本稿では,表現をモダリティの文脈と整合させる検出非依存の枠組みを提案する。
モーダリティトークンをマルチモーダリティコンテキスト注意による検出プロセスに統合する。
提案されたアプローチは、最小限のオーバーヘッドとアーキテクチャの変更を伴わず、APを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-03T07:49:21Z) - A Graph-Based Test-Harness for LLM Evaluation [0.8164433158925593]
我々は400以上の質問に対して、ダイナミックで体系的な医療ガイドラインのベンチマークのプロトタイプを初めて提示する。
我々はWHO IMCIハンドブックを200以上のノードを持つ有向グラフに変換し、年齢別シナリオを含む質問を生成する。
症状認識には優れたモデルがあるが,重症度,治療プロトコル,フォローアップケアに苦慮している。
論文 参考訳(メタデータ) (2025-08-28T14:10:59Z) - DiffRect: Latent Diffusion Label Rectification for Semi-supervised Medical Image Segmentation [47.71546146966071]
半教師型医用画像分割のための潜在ラベル認識モデル(DiffRect)を提案する。
DiffRectをACDC、MS-CMRSEG 2019、Deathlon Prostateの3つの公開データセットで評価した。
論文 参考訳(メタデータ) (2024-07-13T15:27:31Z) - EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records [14.69982800306006]
EHRは、構造化されたデータ(例えば、医薬品)と詳細な臨床ノート(例えば、医師注記)を組み合わせることで、包括的な患者の医療記録を保存するのに不可欠なものである。
これらの要素は、簡単なデータ検索に不可欠であり、患者のケアに対する深い文脈的な洞察を提供する。
しかし、直感的なEHRシステム設計とヒューマンエラーにより、しばしば不一致に悩まされる。
EHRにおける構造化テーブルと非構造化ノート間のデータの一貫性を確保するために設計された新しいデータセットとタスクであるEHRConを開発した。
論文 参考訳(メタデータ) (2024-06-24T06:26:50Z) - Fine-tuning pre-trained extractive QA models for clinical document
parsing [0.0]
心不全(HF)患者に対する遠隔患者のモニタリングプログラムは、EF(Ejection Fraction)やLVEF(Left Ventricular Ejection Fraction)のような臨床マーカーにアクセスする必要がある。
本稿では,心エコー図を解析し,EF値を検証するシステムについて述べる。
このシステムは、大規模なタスクを自動化して、12ヶ月で1500時間以上、臨床医を救った。
論文 参考訳(メタデータ) (2023-12-04T19:52:56Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Medical data wrangling with sequential variational autoencoders [5.9207487081080705]
本稿では,逐次変分オートエンコーダ(vaes)を用いた異種データ型とバースト欠落データを用いた医療データ記録のモデル化を提案する。
GP-VAEモデルより計算複雑性が低く,両指標を用いた場合,Shi-VAEが最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-12T10:59:26Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。