論文の概要: A Dataset for Addressing Patient's Information Needs related to Clinical Course of Hospitalization
- arxiv url: http://arxiv.org/abs/2506.04156v1
- Date: Wed, 04 Jun 2025 16:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.478721
- Title: A Dataset for Addressing Patient's Information Needs related to Clinical Course of Hospitalization
- Title(参考訳): 臨床経過に伴う患者の情報ニーズに対処するためのデータセット
- Authors: Sarvesh Soni, Dina Demner-Fushman,
- Abstract要約: ArchEHR-QAは、集中治療室と救急部門の設定から現実の患者をベースとした、専門家による注釈付きデータセットである。
症例は、公衆衛生フォーラムへの患者による質問、臨床医が解釈した質問、関連する臨床ノートの抜粋、および臨床医が認可した回答である。
答えファーストのプロンプトアプローチは一貫して最善を尽くし、ラマ4は最高得点を獲得した。
- 参考スコア(独自算出の注目度): 15.837772594006038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patients have distinct information needs about their hospitalization that can be addressed using clinical evidence from electronic health records (EHRs). While artificial intelligence (AI) systems show promise in meeting these needs, robust datasets are needed to evaluate the factual accuracy and relevance of AI-generated responses. To our knowledge, no existing dataset captures patient information needs in the context of their EHRs. We introduce ArchEHR-QA, an expert-annotated dataset based on real-world patient cases from intensive care unit and emergency department settings. The cases comprise questions posed by patients to public health forums, clinician-interpreted counterparts, relevant clinical note excerpts with sentence-level relevance annotations, and clinician-authored answers. To establish benchmarks for grounded EHR question answering (QA), we evaluated three open-weight large language models (LLMs)--Llama 4, Llama 3, and Mixtral--across three prompting strategies: generating (1) answers with citations to clinical note sentences, (2) answers before citations, and (3) answers from filtered citations. We assessed performance on two dimensions: Factuality (overlap between cited note sentences and ground truth) and Relevance (textual and semantic similarity between system and reference answers). The final dataset contains 134 patient cases. The answer-first prompting approach consistently performed best, with Llama 4 achieving the highest scores. Manual error analysis supported these findings and revealed common issues such as omitted key clinical evidence and contradictory or hallucinated content. Overall, ArchEHR-QA provides a strong benchmark for developing and evaluating patient-centered EHR QA systems, underscoring the need for further progress toward generating factual and relevant responses in clinical contexts.
- Abstract(参考訳): 患者は、電子健康記録(EHRs)から臨床証拠を用いて対処できる、入院に関する明確な情報を必要とする。
人工知能(AI)システムはこれらのニーズを満たすことを約束する一方で、AI生成応答の事実的正確性と関連性を評価するために堅牢なデータセットが必要である。
私たちの知る限り、既存のデータセットは、患者のEHRのコンテキストで必要な患者情報をキャプチャすることはできません。
ArchEHR-QAは、集中治療室と救急部門の設定から現実の患者をベースとした、専門家による注釈付きデータセットである。
患者が公衆衛生フォーラムに投稿した質問、臨床医が解釈した質問、関連する臨床ノートに文章レベルの関連アノテーションを添付した抜粋、および臨床医が認可した回答を含む。
EHR質問応答(QA)の基準を確立するために,Llama 4,Llama 3,Mixtral-acrossの3つのオープンウェイト大言語モデル(LLMs)の評価を行った。
そこで我々は,2つの次元において,実感(引用注記文と接地真理の重なり)と関連性(システムと参照回答の文的・意味的類似性)の2つの特性について評価した。
最終データセットには134人の患者が含まれている。
答えファーストのプロンプトアプローチは一貫して最善を尽くし、ラマ4は最高得点を獲得した。
手動の誤り分析はこれらの発見を支持し, 欠落した臨床証拠や矛盾や幻覚的内容などの共通点を明らかにした。
ArchEHR-QA は、患者中心の EHR QA システムの開発と評価のための強力なベンチマークを提供する。
関連論文リスト
- Follow-up Question Generation For Enhanced Patient-Provider Conversations [0.11309478649967242]
FollowupQは非同期医療会話を強化するための新しいフレームワークである。
FollowupQは、患者メッセージとEHRデータを処理し、パーソナライズされたフォローアップ質問を生成する。
必要なプロバイダのフォローアップ通信を34%削減する。
また、実データと合成データのパフォーマンスも17%向上し、5%向上した。
論文 参考訳(メタデータ) (2025-03-21T19:40:53Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Give me Some Hard Questions: Synthetic Data Generation for Clinical QA [13.436187152293515]
本稿では,ゼロショット環境での大規模言語モデル(LLM)を用いた臨床QAデータの生成について検討する。
ナイーブなプロンプトが臨床シナリオの複雑さを反映しない簡単な質問をもたらすことがよくあります。
2つの臨床QAデータセットを用いた実験により,本手法はより難解な質問を発生し,ベースライン上での微調整性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-05T19:35:41Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19
Assessment in Primary Care [45.43645878061283]
本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。
私たちの知識グラフには、既存の患者の症状、その持続時間、重症度に関する情報が含まれています。
本フレームワークを英国における新型コロナウイルス患者の相談ノートに適用する。
論文 参考訳(メタデータ) (2023-06-17T23:35:51Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。