論文の概要: MeDiSumQA: Patient-Oriented Question-Answer Generation from Discharge Letters
- arxiv url: http://arxiv.org/abs/2502.03298v1
- Date: Wed, 05 Feb 2025 15:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:18.706957
- Title: MeDiSumQA: Patient-Oriented Question-Answer Generation from Discharge Letters
- Title(参考訳): MeDiSumQA: 退院書面からの患者指向質問応答生成
- Authors: Amin Dada, Osman Alperen Koras, Marie Bauer, Amanda Butler, Kaleb E. Smith, Jens Kleesiek, Julian Friedrich,
- Abstract要約: 大規模言語モデル(LLM)は、医療情報を単純化してソリューションを提供する。
安全で患者に優しいテキスト生成のためのLCMの評価は、標準化された評価リソースが欠如しているため困難である。
MeDiSumQAはMIMIC-IV放電サマリーから自動パイプラインを通じて生成されたデータセットである。
- 参考スコア(独自算出の注目度): 1.6135243915480502
- License:
- Abstract: While increasing patients' access to medical documents improves medical care, this benefit is limited by varying health literacy levels and complex medical terminology. Large language models (LLMs) offer solutions by simplifying medical information. However, evaluating LLMs for safe and patient-friendly text generation is difficult due to the lack of standardized evaluation resources. To fill this gap, we developed MeDiSumQA. MeDiSumQA is a dataset created from MIMIC-IV discharge summaries through an automated pipeline combining LLM-based question-answer generation with manual quality checks. We use this dataset to evaluate various LLMs on patient-oriented question-answering. Our findings reveal that general-purpose LLMs frequently surpass biomedical-adapted models, while automated metrics correlate with human judgment. By releasing MeDiSumQA on PhysioNet, we aim to advance the development of LLMs to enhance patient understanding and ultimately improve care outcomes.
- Abstract(参考訳): 患者の医療文書へのアクセスの増加は医療を改善するが、この利点は様々な医療リテラシーレベルと複雑な医療用語によって制限される。
大規模言語モデル(LLM)は、医療情報を単純化してソリューションを提供する。
しかし, 標準的評価資源が欠如しているため, 安全で患者に優しいテキスト生成のためのLCMの評価は困難である。
このギャップを埋めるために,私たちはMeDiSumQAを開発した。
MeDiSumQAは、LSMベースの質問応答生成と手動品質チェックを組み合わせた自動パイプラインを通じてMIMIC-IV放電サマリーから生成されたデータセットである。
このデータセットを用いて患者志向の質問応答における様々なLCMの評価を行う。
以上の結果から,汎用LSMはバイオメディカル適応モデルを上回ることが多いが,自動計測は人間の判断と相関することがわかった。
PhysioNet 上で MeDiSumQA をリリースすることにより,患者の理解を深め,最終的にケア結果を改善するために LLM の開発を進めることを目指している。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations [23.09755446991835]
デジタル医療において、大きな言語モデル(LLM)は質問応答能力を高めるために主に利用されてきた。
本稿では,LLMヘルスケアチェーンの問合せ能力を評価するための新しいフレームワークであるHealthQを提案する。
論文 参考訳(メタデータ) (2024-09-28T23:59:46Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - OLAPH: Improving Factuality in Biomedical Long-form Question Answering [15.585833125854418]
MedLFQAは、バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成されたベンチマークデータセットである。
また,コスト効率と多面的自動評価を利用した,シンプルで斬新なフレームワークであるOLAPHを提案する。
以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。
論文 参考訳(メタデータ) (2024-05-21T11:50:16Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。
このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文 参考訳(メタデータ) (2024-01-25T17:45:34Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。