Fugu-MT 論文翻訳(概要): MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

論文の概要: MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

arxiv url: http://arxiv.org/abs/2308.14089v2
Date: Sun, 24 Dec 2023 09:12:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 22:11:40.785661
Title: MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
Title（参考訳）: MedAlign:電子カルテによる指導のための臨床データセット
Authors: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
Abstract要約: 大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
参考スコア（独自算出の注目度）: 60.35217378132709
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
Abstract（参考訳）: 大規模言語モデル(llm)が自然言語命令に従う能力は、医療における管理負担を軽減し、ケアの質を改善する多くの機会を示唆している。しかし,現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。電子健康記録(ehr)データのための既存の質問応答データセットは、臨床医が経験する情報ニーズとドキュメントの複雑さを捉えることができない。これらの課題に対処するために、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介した。 MedAlignは15人の臨床医(7つの専門分野)によって治められ、303の指示に対する臨床医による参照応答が含まれ、命令-応答ペアを接地するための276の縦 EHRを提供している。 MedAlign を用いて6つの一般ドメイン LLM の評価を行い,臨床医がそれぞれの LLM 応答の精度と品質をランク付けした。その結果,35%(GPT-4)から68%(MPT-7B-Instruct)まで高い誤差率を示し,GPT-4では32kから2kまでの精度が8.3%低下した。最後に,LLMを人的レビューなしでランク付けする方法として,クリニックランキングと自動自然言語生成指標の相関関係を報告する。我々はMedAlignを研究データ利用契約の下で利用可能にし、臨床医のニーズや嗜好に適合したタスクに対するLCM評価を可能にする。

関連論文リスト

Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MeDiSumQA: Patient-Oriented Question-Answer Generation from Discharge Letters [1.6135243915480502]
大規模言語モデル(LLM)は、医療情報を単純化してソリューションを提供する。安全で患者に優しいテキスト生成のためのLCMの評価は、標準化された評価リソースが欠如しているため困難である。 MeDiSumQAはMIMIC-IV放電サマリーから自動パイプラインを通じて生成されたデータセットである。
論文参考訳（メタデータ） (2025-02-05T15:56:37Z)
VeriFact: Verifying Facts in LLM-Generated Clinical Text with Electronic Health Records [2.8078482678056527]
VeriFact(ヴェリファクト)は、臨床医学における大規模言語モデル(LLM)のファクトチェックのための人工知能システムである。略式病院講座の物語を、患者の EHR 臨床ノートによってそれぞれの声明が支持されているかどうかに関する臨床注釈付き簡易な記述に分解する。平均的なヒト臨床臨床の基礎的事実に対して、最大92.7%の合意を達成している。
論文参考訳（メタデータ） (2025-01-28T03:13:16Z)
Can Large Language Models Replace Data Scientists in Biomedical Research? [28.211990967264818]
大規模言語モデル(LLM)は、医学的タスクをサポートし、一般的なコーディングテストでうまく機能する可能性を示している。このベンチマークは、現実のTCGA型ゲノム学および臨床データで実行される293のコーディングタスク(Pythonで128、Rで165)からなる。 LLMを医療専門家のためのデータサイエンスワークフローに統合するプラットフォームを開発した。
論文参考訳（メタデータ） (2024-10-28T22:48:06Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文参考訳（メタデータ） (2024-01-25T19:57:00Z)
LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文参考訳（メタデータ） (2024-01-25T17:45:34Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文参考訳（メタデータ） (2023-05-17T12:31:26Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。