論文の概要: MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings
- arxiv url: http://arxiv.org/abs/2605.30295v1
- Date: Thu, 28 May 2026 17:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.643131
- Title: MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings
- Title(参考訳): MedCase-Structured:臨床現実的なERH設定における診断推論のベンチマークのためのテキスト・ツー・FHIRデータセット
- Authors: Valentina Bui Muti, Eugénie Dulout, Ziquan Fu,
- Abstract要約: 大きな言語モデル(LLM)は、臨床推論と意思決定支援の約束を示す。
HL7 FHIR R4バンドルを非構造化テキストから生成するためのパイプラインを提案する。
このアプローチをMedCaseReasoningに適用し、臨床医が認可した診断症例に対応する合成データセットであるMedCase-Structuredを構築した。
- 参考スコア(独自算出の注目度): 2.759077490183459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health record-congruent settings remains limited. Existing benchmarks often rely on static datasets or unstructured inputs that do not reflect the structured, interoperable data formats used in clinical systems. We introduce a pipeline for generating clinically realistic HL7 FHIR R4 bundles from unstructured text, enabling controllable evaluation of clinical decision support systems. The pipeline combines staged LLM generation with terminology-grounded validation and repair to reduce hallucinated codes and enforce structural and semantic consistency. Applying this approach to MedCaseReasoning, we construct MedCase-Structured, a synthetic dataset aligned with clinician-authored diagnostic cases, achieving valid FHIR generation for 82.5% of cases. Evaluation on MedCase-Structured reveals consistently lower diagnostic accuracy for LLMs on structured FHIR inputs than with plain text, highlighting the importance of deployment-aligned benchmarking.
- Abstract(参考訳): 大規模言語モデル(LLMs)は臨床推論と意思決定支援を約束するが、現実的な電子的健康記録の一致した設定での評価は限られている。
既存のベンチマークは、しばしば、臨床システムで使用される構造化され相互運用可能なデータフォーマットを反映しない静的データセットや非構造化インプットに依存している。
非構造化テキストからHL7 FHIR R4バンドルを生成するパイプラインを導入し、臨床意思決定支援システムの制御可能な評価を可能にする。
このパイプラインは、ステージ化されたLCM生成と、用語による検証と修復を組み合わせることで、幻覚符号を減らし、構造的および意味的一貫性を強制する。
このアプローチをMedCaseReasoningに適用し、臨床者が認可した診断症例に合わせた合成データセットであるMedCase-Structuredを構築し、82.5%のケースで有効なFHIR生成を実現する。
MedCase-Structuredの評価は、構造化されたFHIR入力におけるLCMの診断精度を、平文よりも一貫して低くし、デプロイメント整合ベンチマークの重要性を強調している。
関連論文リスト
- KEPIL: Knowledge-Enhanced Prompt-Image Learning for Prompt-Robust Disease Detection [6.447908430647854]
放射線学的所見は、実際には長い尾を持つが、いくつかの条件は表現されておらず、ゼロショット推論が不可欠である。
我々は、ゼロショットの一般化を安定させるために、キュレートされた医療知識を統合するプロンプトロバストフレームワークであるtextitKEPILを提案する。
論文 参考訳(メタデータ) (2026-05-09T19:29:01Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - CNSight: Evaluation of Clinical Note Segmentation Tools [3.673249612734457]
また,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルの評価を行った。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
論文 参考訳(メタデータ) (2025-12-28T05:40:15Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Infherno: End-to-end Agent-based FHIR Resource Synthesis from Free-form Clinical Notes [37.88754205269813]
本稿では,LLMエージェント,コード実行,医療用語データベースツールを活用したエンドツーエンドフレームワークを提案する。
我々のソリューションであるInfhernoは、FHIRドキュメントスキーマに準拠するように設計されており、構造化されていないテキストからFHIRリソースを予測するための人間のベースラインとよく競合する。
論文 参考訳(メタデータ) (2025-07-16T14:06:51Z) - CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs [0.1578515540930834]
CLI-RAG (Clinically Informed Retrieval-Augmented Generation) は、構造的および臨床的な基盤となるテキスト生成のためのドメイン固有のフレームワークである。
臨床文書構造を尊重する新しい階層的チャンキング戦略を取り入れ、タスク固有の2段階検索機構を導入する。
本システムを用いて,MIMIC-IIIデータセットから15種類の臨床ノートを作成した。
論文 参考訳(メタデータ) (2025-07-09T10:13:38Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。