論文の概要: Clinical Text Summarization: Adapting Large Language Models Can
Outperform Human Experts
- arxiv url: http://arxiv.org/abs/2309.07430v2
- Date: Sat, 21 Oct 2023 00:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:28:24.398894
- Title: Clinical Text Summarization: Adapting Large Language Models Can
Outperform Human Experts
- Title(参考訳): 臨床テキスト要約:大規模言語モデルへの適応は人間の専門家を上回らせる
- Authors: Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit
Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin,
William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis,
John Pauly, Akshay S. Chaudhari
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
我々の研究は、複数のタスクにまたがる臨床テキストの要約において、LLMが人間の専門家より優れているという最初の証拠である。
- 参考スコア(独自算出の注目度): 8.88727258912831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sifting through vast textual data and summarizing key information imposes a
substantial burden on how clinicians allocate their time. Although large
language models (LLMs) have shown immense promise in natural language
processing (NLP) tasks, their efficacy on a diverse range of clinical
summarization tasks has not yet been rigorously demonstrated. In this work, we
apply domain adaptation methods to eight LLMs, spanning six datasets and four
distinct clinical summarization tasks: radiology reports, patient questions,
progress notes, and doctor-patient dialogue. Our thorough quantitative
assessment reveals trade-offs between models and adaptation methods in addition
to instances where recent advances in LLMs may not improve results. Further, in
a clinical reader study with ten physicians, we show that summaries from our
best-adapted LLMs are preferable to human summaries in terms of completeness
and correctness. Our ensuing qualitative analysis highlights challenges faced
by both LLMs and human experts. Lastly, we correlate traditional quantitative
NLP metrics with reader study scores to enhance our understanding of how these
metrics align with physician preferences. Our research marks the first evidence
of LLMs outperforming human experts in clinical text summarization across
multiple tasks. This implies that integrating LLMs into clinical workflows
could alleviate documentation burden, empowering clinicians to focus more on
personalized patient care and the inherently human aspects of medicine.
- Abstract(参考訳): 膨大なテキストデータを精査し、重要な情報を要約することは、臨床医の時間の割り当てに多大な負担を課す。
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を秘めているが、多種多様な臨床要約タスクに対する効果はまだ十分に実証されていない。
本研究は,8つのllmにドメイン適応法を適用し,6つのデータセットと4つの異なる臨床要約タスク(放射線検査,患者の質問,進捗記録,医師と患者との対話)にまたがる。
我々は,最近のllmの進歩が改善しない事例に加えて,モデルと適応手法のトレードオフを明らかにする。
さらに,10名の医師による臨床読影者を対象に,最良適応LSMの要約は,完全性と正確性の観点からヒトの要約より好ましいことを示す。
続く質的分析は、LLMと人間の専門家が直面する課題を強調します。
最後に,これらの指標が医師の嗜好とどのように一致しているかの理解を深めるため,従来の量的NLP指標と読者調査スコアを相関付ける。
我々の研究は、複数のタスクにわたる臨床テキスト要約において、llmが人間専門家を上回った最初の証拠である。
このことは、LSMを臨床ワークフローに組み込むことで、医師がパーソナライズされた患者のケアや、本質的に人間の医学的側面にもっと集中できるように、ドキュメントの負担を軽減することができることを意味している。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。