論文の概要: EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks
- arxiv url: http://arxiv.org/abs/2511.08206v1
- Date: Wed, 12 Nov 2025 01:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.69696
- Title: EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks
- Title(参考訳): EHRStruct:構造化電子健康記録タスクにおける大規模言語モデル評価のための総合ベンチマークフレームワーク
- Authors: Xiao Yang, Xuejiao Zhao, Zhiqi Shen,
- Abstract要約: EHRStructは,大規模言語モデル(LLM)を構造化されたEHRタスク上で評価するためのベンチマークである。
EHRStruct を用いて, 汎用モデルと医療モデルの両方を対象とし, 先進的, 代表的 LLM の評価を行った。
我々は、構造化データ推論のための11の最先端LCMに基づく拡張手法と比較した。
本稿では,最先端のパフォーマンスを実現し,実用的なコード拡張手法であるEHRMasterを提案する。
- 参考スコア(独自算出の注目度): 11.743060390988896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured Electronic Health Record (EHR) data stores patient information in relational tables and plays a central role in clinical decision-making. Recent advances have explored the use of large language models (LLMs) to process such data, showing promise across various clinical tasks.However, the absence of standardized evaluation frameworks and clearly defined tasks makes it difficult to systematically assess and compare LLM performance on structured EHR data.To address these evaluation challenges, we introduce EHRStruct, a benchmark specifically designed to evaluate LLMs on structured EHR tasks.EHRStruct defines 11 representative tasks spanning diverse clinical needs and includes 2,200 task-specific evaluation samples derived from two widely used EHR datasets.We use EHRStruct to evaluate 20 advanced and representative LLMs, covering both general and medical models.We further analyze key factors influencing model performance, including input formats, few-shot generalisation, and finetuning strategies, and compare results with 11 state-of-the-art LLM-based enhancement methods for structured data reasoning. Our results indicate that many structured EHR tasks place high demands on the understanding and reasoning capabilities of LLMs.In response, we propose EHRMaster, a code-augmented method that achieves state-of-the-art performance and offers practical
- Abstract(参考訳): 構造化電子健康記録(EHR)データは、患者情報をリレーショナルテーブルに格納し、臨床意思決定において中心的な役割を果たす。
EHRStructは、多種多様な臨床ニーズにまたがる11の代表的なタスクを定義し、また、広く使用されている2つのEHRデータセットから得られた2,200のタスク固有の評価サンプルを含む。我々は、20の先進的および代表的なLEMを評価するためにEHRStructを使用し、一般的なモデルと医療モデルの両方をカバーする。
以上の結果から,構造化 EHR タスクの多くは LLM の理解と推論能力に高い要求を課すことが示唆された。
関連論文リスト
- EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis [78.05962117947259]
EHR-Insは大規模で総合的なEHR推論命令データセットである。
また,EHR分析に適した最大72Bパラメータを持つ推理強化LDMであるEHR-R1を開発した。
最後に、MIMIC-IVからキュレートされた新しいベンチマークであるEHR-Benchを紹介し、42のタスクにまたがる。
論文 参考訳(メタデータ) (2025-10-29T15:32:47Z) - Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。
このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。
このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文 参考訳(メタデータ) (2025-10-24T15:56:40Z) - A Comprehensive Survey of Electronic Health Record Modeling: From Deep Learning Approaches to Large Language Models [5.623574322477982]
このサーベイは、ディープラーニング、大規模言語モデル(LLM)、EHRモデリングの交差点における最近の進歩の包括的概要を提供する。
データ中心のアプローチ、ニューラルアーキテクチャ設計、学習中心の戦略、マルチモーダル学習、LLMに基づくモデリングシステムである。
この調査は、AI駆動のEHRモデリングと臨床意思決定支援を進めるための構造化されたロードマップを提供することを目的としている。
論文 参考訳(メタデータ) (2025-07-17T04:31:55Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Large Language Models are Powerful Electronic Health Record Encoders [2.310631440585048]
汎用大規模言語モデルは、下流臨床予測タスクの表現にERHをエンコードするために使用される。
本手法は, 機関固有の訓練を必要とせず, 医用コードにテキスト記述を組み込むことが可能である。
LLMに基づくモデルでは, 発症, 入院, 死亡率の予測に優れた性能を示し, 集団に対する堅牢性, コーディングシフトを示す。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Representation Learning of Structured Data for Medical Foundation Models [29.10129199884847]
我々はUniStructアーキテクチャを導入し、構造化されていないテキストと構造化データのマルチモーダル医療基盤モデルを設計する。
本手法は,広範囲な内部医療データベースと構造化医療記録の公開リポジトリのモデル事前学習を通じて検証される。
論文 参考訳(メタデータ) (2024-10-17T09:02:28Z) - Knowledge Graph Embedding with Electronic Health Records Data via Latent
Graphical Block Model [13.398292423857756]
潜在的グラフィカルブロックモデル (LGBM) を用いて, EHR特徴量間の条件依存構造を推定する。
提案した推定器の統計率を確立し,ブロック構造の完全回復を示す。
論文 参考訳(メタデータ) (2023-05-31T16:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。