論文の概要: A Benchmark of Domain-Adapted Large Language Models for Generating Brief
Hospital Course Summaries
- arxiv url: http://arxiv.org/abs/2403.05720v1
- Date: Fri, 8 Mar 2024 23:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:40:03.685721
- Title: A Benchmark of Domain-Adapted Large Language Models for Generating Brief
Hospital Course Summaries
- Title(参考訳): 短期病院コース要約作成のためのドメイン適応型大規模言語モデルのベンチマーク
- Authors: Asad Aali, Dave Van Veen, Yamin Ishraq Arefeen, Jason Hom, Christian
Bluethgen, Eduardo Pontes Reis, Sergios Gatidis, Namuun Clifford, Joseph
Daws, Arash S. Tehrani, Jangwon Kim, Akshay S. Chaudhari
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。
我々はMIMIC-IVノートから抽出した前処理データセットからなる新しいベンチマークを提案する。
臨床ノートからBHC合成を改善するために,2つの汎用LSMと3つの医療適応LSMの性能を評価した。
- 参考スコア(独自算出の注目度): 4.201332098927781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brief hospital course (BHC) summaries are common clinical documents generated
by summarizing clinical notes. While large language models (LLMs) depict
remarkable capabilities in automating real-world tasks, their capabilities for
healthcare applications such as BHC synthesis have not been shown. To enable
the adaptation of LLMs for BHC synthesis, we introduce a novel benchmark
consisting of a pre-processed dataset extracted from MIMIC-IV notes,
encapsulating clinical note, and brief hospital course (BHC) pairs. We assess
the performance of two general-purpose LLMs and three healthcare-adapted LLMs
to improve BHC synthesis from clinical notes. Using clinical notes as input for
generating BHCs, we apply prompting-based (using in-context learning) and
fine-tuning-based adaptation strategies to three open-source LLMs
(Clinical-T5-Large, Llama2-13B, FLAN-UL2) and two proprietary LLMs (GPT-3.5,
GPT-4). We quantitatively evaluate the performance of these LLMs across varying
context-length inputs using conventional natural language similarity metrics.
We further perform a qualitative study where five diverse clinicians blindly
compare clinician-written BHCs and two LLM-generated BHCs for 30 samples across
metrics of comprehensiveness, conciseness, factual correctness, and fluency.
Overall, we present a new benchmark and pre-processed dataset for using LLMs in
BHC synthesis from clinical notes. We observe high-quality summarization
performance for both in-context proprietary and fine-tuned open-source LLMs
using both quantitative metrics and a qualitative clinical reader study. We
propose our work as a benchmark to motivate future works to adapt and assess
the performance of LLMs in BHC synthesis.
- Abstract(参考訳): 短期病院コース(BHC)は、臨床ノートを要約して作成した一般的な臨床文書である。
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、BHC合成のような医療応用の能力は示されていない。
そこで本研究では,MIMIC-IVノートから抽出した前処理データセット,臨床ノートのカプセル化,短い病院コース(BHC)ペアからなる新しいベンチマークを提案する。
臨床ノートからBHC合成を改善するために,2つの汎用LSMと3つの医療適応LSMの性能を評価する。
臨床ノートをBHCを生成するための入力として用いて,3つのオープンソースLCM(Clinical-T5-Large, Llama2-13B, FLAN-UL2)と2つの独自LSM(GPT-3.5, GPT-4)に,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
従来の自然言語類似度指標を用いて,様々なコンテキスト長入力におけるllmの性能を定量的に評価する。
さらに, 臨床医5名を対象に, 包括性, 簡潔性, 事実的正当性, 流布度の測定値から, 臨床医5名とLCM生成型BHC2名を比較した。
そこで本研究では,臨床ノートからのBHC合成にLLMを用いた新しいベンチマークと事前処理データセットを提案する。
定量的指標と定性的臨床読解者調査の両方を用いて,インコンテキストプロプライエタリおよび微調整されたオープンソースllmの質の高い要約性能を観察した。
我々は,bhc合成におけるllmの性能を適応・評価するために,今後の作業にモチベーションを与えるベンチマークとして提案する。
関連論文リスト
- Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.721994833304517]
大言語モデル(LLM)は、臨床テキスト要約タスクの処理において有望な能力を示している。
患者と医師の対話から高品質な臨床ノートを作成するために,小規模なオープンソース LLM を効果的に訓練できることを実証した。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - CLUE: A Clinical Language Understanding Evaluation for LLMs [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献する可能性を示している。
これらのモデルの評価は、主に非クリニカルなタスクに限られている。
本研究は,現実的な臨床業務におけるLLMの評価に適したベンチマークであるCLUEについて述べる。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - From RAGs to riches: Using large language models to write documents for
clinical trials [0.0]
大言語モデル(LLM)は、臨床試験文書の最初のバージョンを迅速に生成する可能性を提供する。
本稿では, 1 つの文書, 臨床試験プロトコルの生成における LLM の評価について報告する。
性能向上のために、我々は検索拡張生成(RAG)を用いて、正確な最新情報を持つLLMを誘導した。
論文 参考訳(メタデータ) (2024-02-26T08:59:05Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。