論文の概要: Clinical Text Summarization: Adapting Large Language Models Can
Outperform Human Experts
- arxiv url: http://arxiv.org/abs/2309.07430v3
- Date: Tue, 24 Oct 2023 02:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 23:44:24.661242
- Title: Clinical Text Summarization: Adapting Large Language Models Can
Outperform Human Experts
- Title(参考訳): 臨床テキスト要約:大規模言語モデルへの適応は人間の専門家を上回らせる
- Authors: Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit
Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin,
Eduardo Pontes Reis, Anna Seehofnerova, Nidhi Rohatgi, Poonam Hosamani,
William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis,
John Pauly, Akshay S. Chaudhari
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
我々の研究は、複数のタスクにまたがる臨床テキストの要約において、LLMが人間の専門家より優れているという最初の証拠である。
- 参考スコア(独自算出の注目度): 8.58821737720852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sifting through vast textual data and summarizing key information from
electronic health records (EHR) imposes a substantial burden on how clinicians
allocate their time. Although large language models (LLMs) have shown immense
promise in natural language processing (NLP) tasks, their efficacy on a diverse
range of clinical summarization tasks has not yet been rigorously demonstrated.
In this work, we apply domain adaptation methods to eight LLMs, spanning six
datasets and four distinct clinical summarization tasks: radiology reports,
patient questions, progress notes, and doctor-patient dialogue. Our thorough
quantitative assessment reveals trade-offs between models and adaptation
methods in addition to instances where recent advances in LLMs may not improve
results. Further, in a clinical reader study with ten physicians, we show that
summaries from our best-adapted LLMs are preferable to human summaries in terms
of completeness and correctness. Our ensuing qualitative analysis highlights
challenges faced by both LLMs and human experts. Lastly, we correlate
traditional quantitative NLP metrics with reader study scores to enhance our
understanding of how these metrics align with physician preferences. Our
research marks the first evidence of LLMs outperforming human experts in
clinical text summarization across multiple tasks. This implies that
integrating LLMs into clinical workflows could alleviate documentation burden,
empowering clinicians to focus more on personalized patient care and the
inherently human aspects of medicine.
- Abstract(参考訳): 膨大なテキストデータを精査し、電子健康記録(ehr)から重要な情報を要約することは、臨床医の時間の割り当てに多大な負担を課す。
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を秘めているが、多種多様な臨床要約タスクに対する効果はまだ十分に実証されていない。
本研究は,8つのllmにドメイン適応法を適用し,6つのデータセットと4つの異なる臨床要約タスク(放射線検査,患者の質問,進捗記録,医師と患者との対話)にまたがる。
我々は,最近のllmの進歩が改善しない事例に加えて,モデルと適応手法のトレードオフを明らかにする。
さらに,10名の医師による臨床読影者を対象に,最良適応LSMの要約は,完全性と正確性の観点からヒトの要約より好ましいことを示す。
続く質的分析は、LLMと人間の専門家が直面する課題を強調します。
最後に,これらの指標が医師の嗜好とどのように一致しているかの理解を深めるため,従来の量的NLP指標と読者調査スコアを相関付ける。
我々の研究は、複数のタスクにわたる臨床テキスト要約において、llmが人間専門家を上回った最初の証拠である。
このことは、LSMを臨床ワークフローに組み込むことで、医師がパーソナライズされた患者のケアや、本質的に人間の医学的側面にもっと集中できるように、ドキュメントの負担を軽減することができることを意味している。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。