論文の概要: Serialisation Strategy Matters: How FHIR Data Format Affects LLM Medication Reconciliation
- arxiv url: http://arxiv.org/abs/2604.21076v1
- Date: Wed, 22 Apr 2026 20:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.17236
- Title: Serialisation Strategy Matters: How FHIR Data Format Affects LLM Medication Reconciliation
- Title(参考訳): シリアライゼーション戦略が重要:FHIRデータフォーマットがLCMの緩和にどのように影響するか
- Authors: Sanjoy Pator,
- Abstract要約: 5つのオープンウェイトモデル間での4つのFHIRシリアライゼーション戦略の最初の体系的比較を示す。
直列化戦略は,最大8Bパラメータのモデルの性能に大きく,統計的に有意な影響を及ぼすことがわかった。
より小さなモデルでは、約7~10の同時作用薬を投与し、多剤療法患者を残した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medication reconciliation at clinical handoffs is a high-stakes, error-prone process. Large language models are increasingly proposed to assist with this task using FHIR-structured patient records, but a fundamental and largely unstudied variable is how the FHIR data is serialised before being passed to the model. We present the first systematic comparison of four FHIR serialisation strategies (Raw JSON, Markdown Table, Clinical Narrative, and Chronological Timeline) across five open-weight models (Phi-3.5-mini, Mistral-7B, BioMistral-7B, Llama-3.1-8B, Llama-3.3-70B) on a controlled benchmark of 200 synthetic patients, totalling 4,000 inference runs. We find that serialisation strategy has a large, statistically significant effect on performance for models up to 8B parameters: Clinical Narrative outperforms Raw JSON by up to 19 F1 points for Mistral-7B (r = 0.617, p < 10^{-10}). This advantage reverses at 70B, where Raw JSON achieves the best mean F1 of 0.9956. In all 20 model and strategy combinations, mean precision exceeds mean recall: omission is the dominant failure mode, with models more often missing an active medication than fabricating one, which changes how clinical safety auditing priorities should be set. Smaller models plateau at roughly 7-10 concurrent active medications, leaving polypharmacy patients, the patients most at risk from reconciliation errors, systematically underserved. BioMistral-7B, a domain-pretrained model without instruction tuning, produces zero usable output in all conditions, showing that domain pretraining alone is not sufficient for structured extraction. These results offer practical, evidence-based format recommendations for clinical LLM deployment: Clinical Narrative for models up to 8B, Raw JSON for 70B and above. The complete pipeline is reproducible on open-source tools running on an AWS g6e.xlarge instance (NVIDIA L40S, 48 GB VRAM).
- Abstract(参考訳): クリニカルハンドオフにおけるメディケイト調停は、ハイテイクでエラーを起こしやすいプロセスである。
大規模言語モデルは、FHIR構造化された患者記録を用いてこのタスクを支援するために、ますます提案されているが、基本的でほとんど研究されていない変数は、モデルに渡される前にFHIRデータがシリアライズされる方法である。
我々は,200人の合成患者を対象に,FHIR連続化戦略(Raw JSON, Markdown Table, Clinical Narrative, Chronological Timeline)を5つのオープンウェイトモデル(Phi-3.5-mini, Mistral-7B, BioMistral-7B, Llama-3.1-8B, Llama-3.3-70B)で比較した。
臨床ナララティブはMistral-7Bの19F1ポイント(r = 0.617, p < 10^{-10})において、Raw JSONを最大8Bパラメータで上回った。
この利点は70Bで逆転し、Raw JSONは0.9956の最高の平均F1を達成する。
20のモデルと戦略の組み合わせにおいて、平均精度は平均的リコールを超える: 欠落は主流の障害モードであり、モデルが1つを作るよりもアクティブな薬物を欠くことが多いため、臨床安全監査の優先順位の設定方法が変わる。
より小さなモデルでは、約7~10個の活動薬を同時に投与し、多剤療法の患者を残し、患者は和解ミスのリスクが最も高く、体系的に保存されていない。
命令チューニングのないドメイン事前学習モデルであるBioMistral-7Bは、すべての条件で使用可能な出力をゼロとし、ドメイン事前学習だけでは構造化抽出には不十分であることを示す。
これらの結果は,臨床 LLM 展開のための実践的,エビデンスベースのフォーマットレコメンデーションを提供する: 最大 8B のモデルに対する臨床ナラティブ,70B 以上のRaw JSON 。
完全なパイプラインは、AWS g6e.xlargeインスタンス(NVIDIA L40S、48GB VRAM)上で動作するオープンソースツールで再現可能である。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - A systematic review of trial-matching pipelines using large language models [0.9176056742068814]
患者を臨床試験の選択肢に合わせることは、特に腫瘍学において新しい治療法を特定するために重要である。
大規模言語モデル(LLM)はこの問題に対して有望な解決策を提供する。
本総説では, 臨床治験におけるLSMの応用の進展を概説し, 有望な方向性と限界を強調した。
論文 参考訳(メタデータ) (2025-09-13T21:21:05Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.7472996057387354]
本研究では,古典的特徴ベース機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを比較し,新型コロナウイルス死亡率の予測を行った。
XGBoost と RF は CML において優れた性能を示し,F1 スコアは0.87 と 0.83 であった。
GPT-4はF1スコアが0.43、微調整のMistral-7bは1%から79%に大幅に改善され、外部検証では安定したF1スコアが0.74となった。
論文 参考訳(メタデータ) (2024-09-02T14:51:12Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - An Interpretable Web-based Glioblastoma Multiforme Prognosis Prediction
Tool using Random Forest Model [1.1024591739346292]
治療後1年間のGBM患者の健康状態を推定する予測モデルを提案する。
総計467名のGBM患者の臨床像を13の特徴と2つの経過日で比較検討した。
GBM患者生存の予後因子のトップ3はMGMT遺伝子プロモーター,切除範囲,年齢であった。
論文 参考訳(メタデータ) (2021-08-30T07:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。