論文の概要: EHRNoteQA: A Patient-Specific Question Answering Benchmark for
Evaluating Large Language Models in Clinical Settings
- arxiv url: http://arxiv.org/abs/2402.16040v2
- Date: Tue, 27 Feb 2024 06:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 11:16:55.729597
- Title: EHRNoteQA: A Patient-Specific Question Answering Benchmark for
Evaluating Large Language Models in Clinical Settings
- Title(参考訳): ehrnoteqa: 臨床場面における大規模言語モデル評価のための患者固有の質問応答ベンチマーク
- Authors: Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon,
Kwanghyun Kim, Seunghyun Won, Edward Choi
- Abstract要約: 本研究では,臨床環境におけるLarge Language Models (LLMs) の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。
MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、962のユニークな質問からなるデータセットをキュレートした。
このデータセットは、PhyloNetクレデンシャルアクセスの下で一般公開され、この重要な分野におけるさらなる研究が促進される。
- 参考スコア(独自算出の注目度): 9.77441122987873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces EHRNoteQA, a novel patient-specific question answering
benchmark tailored for evaluating Large Language Models (LLMs) in clinical
environments. Based on MIMIC-IV Electronic Health Record (EHR), a team of three
medical professionals has curated the dataset comprising 962 unique questions,
each linked to a specific patient's EHR clinical notes. What makes EHRNoteQA
distinct from existing EHR-based benchmarks is as follows: Firstly, it is the
first dataset to adopt a multi-choice question answering format, a design
choice that effectively evaluates LLMs with reliable scores in the context of
automatic evaluation, compared to other formats. Secondly, it requires an
analysis of multiple clinical notes to answer a single question, reflecting the
complex nature of real-world clinical decision-making where clinicians review
extensive records of patient histories. Our comprehensive evaluation on various
large language models showed that their scores on EHRNoteQA correlate more
closely with their performance in addressing real-world medical questions
evaluated by clinicians than their scores from other LLM benchmarks. This
underscores the significance of EHRNoteQA in evaluating LLMs for medical
applications and highlights its crucial role in facilitating the integration of
LLMs into healthcare systems. The dataset will be made available to the public
under PhysioNet credential access, promoting further research in this vital
field.
- Abstract(参考訳): 本研究では,臨床環境におけるLarge Language Models(LLMs)の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。
MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、特定の患者のEHR臨床試験ノートにリンクした962のユニークな質問からなるデータセットを治療した。
EHRNoteQA を既存の EHR ベースのベンチマークと異なるものにしているのは,次のとおりである。 まず第一に,自動評価のコンテキストにおいて信頼性の高いスコアで LLM を効果的に評価する,多選択の質問応答フォーマットを採用した最初のデータセットである。
第二に、1つの質問に答えるためには、複数の臨床ノートの分析が必要であり、臨床医が患者の履歴に関する広範な記録をレビューする実際の臨床意思決定の複雑な性質を反映している。
各種大規模言語モデルに対する総合的な評価の結果, EHRNoteQAのスコアは, 臨床医が評価した実際の医学的問題に, 他のLSMベンチマークのスコアよりも密接に関連していることがわかった。
このことは、医療応用におけるLSMの評価における EHRNoteQA の重要性を強調し、LSM の医療システムへの統合を促進する上で重要な役割を強調している。
このデータセットはphysionet credential accessの下で一般公開され、この分野のさらなる研究が促進される。
関連論文リスト
- CLUE: A Clinical Language Understanding Evaluation for LLMs [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献する可能性を示している。
これらのモデルの評価は、主に非クリニカルなタスクに限られている。
本研究は,現実的な臨床業務におけるLLMの評価に適したベンチマークであるCLUEについて述べる。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。