論文の概要: Enhanced Electronic Health Records Text Summarization Using Large Language Models
- arxiv url: http://arxiv.org/abs/2410.09628v1
- Date: Sat, 12 Oct 2024 19:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.713698
- Title: Enhanced Electronic Health Records Text Summarization Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた電子健康記録テキスト要約の強化
- Authors: Ruvarashe Madzime, Clement Nyirenda,
- Abstract要約: このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The development of Electronic Health Records summarization systems has revolutionized patient data management. Previous research advanced this field by adapting Large Language Models for clinical tasks, using diverse datasets to generate general EHR summaries. However, clinicians often require specific, focused summaries for quicker insights. This project builds on prior work by creating a system that generates clinician-preferred, focused summaries, improving EHR summarization for more efficient patient care. The proposed system leverages the Google Flan-T5 model to generate tailored EHR summaries based on clinician-specified topics. The approach involved fine-tuning the Flan-T5 model on an EHR question-answering dataset formatted in the Stanford Question Answering Dataset (SQuAD) style, which is a large-scale reading comprehension dataset with questions and answers. Fine-tuning utilized the Seq2SeqTrainer from the Hugging Face Transformers library with optimized hyperparameters. Key evaluation metrics demonstrated promising results: the system achieved an Exact Match (EM) score of 81.81%. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) metrics showed strong performance, with ROUGE-1 at 96.03%, ROUGE-2 at 86.67%, and ROUGE-L at 96.10%. Additionally, the Bilingual Evaluation Understudy (BLEU) score was 63%, reflecting the model's coherence in generating summaries. By enhancing EHR summarization through LLMs, this project supports digital transformation efforts in healthcare, streamlining workflows, and enabling more personalized patient care.
- Abstract(参考訳): 電子健康記録要約システムの開発は患者のデータ管理に革命をもたらした。
これまでの研究では、多種多様なデータセットを用いて一般的なERH要約を生成することで、臨床タスクに大規模言語モデルを適用することで、この分野を前進させた。
しかし、臨床医は、より迅速な洞察のために、特定の、集中した要約を必要とすることが多い。
本研究は, より効率的な患者ケアのためのERH要約を改善するために, 臨床に好まれ, 焦点を絞った要約を生成するシステムを構築することにより, 先行研究を基礎にしている。
提案システムは、Google Flan-T5モデルを利用して、臨床専門のトピックに基づいて、カスタマイズされたEHRサマリーを生成する。
このアプローチでは、Stanford Question Answering Dataset (SQuAD)スタイルでフォーマットされたEHR質問回答データセットに基づいて、Flan-T5モデルを微調整する。
ファインチューニングは、最適化されたハイパーパラメータを持つHugging Face TransformersライブラリのSeq2SeqTrainerを利用している。
主要な評価基準は有望な結果を示し、システムはエクサクトマッチ(EM)スコアが81.81%に達した。
ROUGE-1は96.03%、ROUGE-2は86.67%、ROUGE-Lは96.10%であった。
さらに、Bylingual Evaluation Understudy(BLEU)スコアは63%であり、モデルが要約を生成する際の一貫性を反映している。
LLMによるERH要約を強化することで、医療におけるデジタルトランスフォーメーションの取り組みを支援し、ワークフローを合理化し、よりパーソナライズされた患者ケアを可能にする。
関連論文リスト
- Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - EHRmonize: A Framework for Medical Concept Abstraction from Electronic Health Records using Large Language Models [21.637722557192482]
EHRデータから医療概念を抽象化するために,大規模言語モデルを活用するフレームワークであるEHRmonizeを紹介する。
本研究は,2つの自由テキスト抽出と6つのバイナリ分類タスクにおいて,実世界のEHRデータベースからの薬物データを用いて5つのLSMを評価する。
GPT-4oはジェネリックルート名同定において97%,ジェネリックドラッグ名では82%,抗生物質のバイナリ分類では100%の精度を達成した。
論文 参考訳(メタデータ) (2024-06-28T21:39:20Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Neural Summarization of Electronic Health Records [8.784162652042957]
本研究では,4つの最先端ニューラルネットワーク要約モデルを用いて,放電要約の様々な部分の自動生成の実現可能性について検討した。
従来の微調整言語モデルでは、レポート全体を要約する性能が向上した。
論文 参考訳(メタデータ) (2023-05-24T15:05:53Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。