論文の概要: MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records
- arxiv url: http://arxiv.org/abs/2308.14089v2
- Date: Sun, 24 Dec 2023 09:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:11:40.785661
- Title: MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records
- Title(参考訳): MedAlign:電子カルテによる指導のための臨床データセット
- Authors: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A.
Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins,
Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison
Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju,
Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima
Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H.
Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
- Abstract要約: 大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
- 参考スコア(独自算出の注目度): 60.35217378132709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of large language models (LLMs) to follow natural language
instructions with human-level fluency suggests many opportunities in healthcare
to reduce administrative burden and improve quality of care. However,
evaluating LLMs on realistic text generation tasks for healthcare remains
challenging. Existing question answering datasets for electronic health record
(EHR) data fail to capture the complexity of information needs and
documentation burdens experienced by clinicians. To address these challenges,
we introduce MedAlign, a benchmark dataset of 983 natural language instructions
for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes
clinician-written reference responses for 303 instructions, and provides 276
longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to
evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality
of each LLM response. We found high error rates, ranging from 35% (GPT-4) to
68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k
context lengths for GPT-4. Finally, we report correlations between clinician
rankings and automated natural language generation metrics as a way to rank
LLMs without human review. We make MedAlign available under a research data use
agreement to enable LLM evaluations on tasks aligned with clinician needs and
preferences.
- Abstract(参考訳): 大規模言語モデル(llm)が自然言語命令に従う能力は、医療における管理負担を軽減し、ケアの質を改善する多くの機会を示唆している。
しかし,現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
電子健康記録(ehr)データのための既存の質問応答データセットは、臨床医が経験する情報ニーズとドキュメントの複雑さを捉えることができない。
これらの課題に対処するために、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介した。
MedAlignは15人の臨床医(7つの専門分野)によって治められ、303の指示に対する臨床医による参照応答が含まれ、命令-応答ペアを接地するための276の縦 EHRを提供している。
MedAlign を用いて6つの一般ドメイン LLM の評価を行い,臨床医がそれぞれの LLM 応答の精度と品質をランク付けした。
その結果,35%(GPT-4)から68%(MPT-7B-Instruct)まで高い誤差率を示し,GPT-4では32kから2kまでの精度が8.3%低下した。
最後に,LLMを人的レビューなしでランク付けする方法として,クリニックランキングと自動自然言語生成指標の相関関係を報告する。
我々はMedAlignを研究データ利用契約の下で利用可能にし、臨床医のニーズや嗜好に適合したタスクに対するLCM評価を可能にする。
関連論文リスト
- EHRNoteQA: A Patient-Specific Question Answering Benchmark for
Evaluating Large Language Models in Clinical Settings [9.77441122987873]
本研究では,臨床環境におけるLarge Language Models (LLMs) の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。
MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、962のユニークな質問からなるデータセットをキュレートした。
このデータセットは、PhyloNetクレデンシャルアクセスの下で一般公開され、この重要な分野におけるさらなる研究が促進される。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。
このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文 参考訳(メタデータ) (2024-01-25T17:45:34Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical
Text Summarization [8.58821737720852]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。