論文の概要: Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization
- arxiv url: http://arxiv.org/abs/2309.07430v5
- Date: Thu, 11 Apr 2024 19:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 19:56:17.145622
- Title: Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization
- Title(参考訳): 適応型大言語モデルは臨床テキスト要約において医療専門家より優れている
- Authors: Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, Eduardo Pontes Reis, Anna Seehofnerova, Nidhi Rohatgi, Poonam Hosamani, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
- 参考スコア(独自算出の注目度): 8.456700096020601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing vast textual data and summarizing key information from electronic health records imposes a substantial burden on how clinicians allocate their time. Although large language models (LLMs) have shown promise in natural language processing (NLP), their effectiveness on a diverse range of clinical summarization tasks remains unproven. In this study, we apply adaptation methods to eight LLMs, spanning four distinct clinical summarization tasks: radiology reports, patient questions, progress notes, and doctor-patient dialogue. Quantitative assessments with syntactic, semantic, and conceptual NLP metrics reveal trade-offs between models and adaptation methods. A clinical reader study with ten physicians evaluates summary completeness, correctness, and conciseness; in a majority of cases, summaries from our best adapted LLMs are either equivalent (45%) or superior (36%) compared to summaries from medical experts. The ensuing safety analysis highlights challenges faced by both LLMs and medical experts, as we connect errors to potential medical harm and categorize types of fabricated information. Our research provides evidence of LLMs outperforming medical experts in clinical text summarization across multiple tasks. This suggests that integrating LLMs into clinical workflows could alleviate documentation burden, allowing clinicians to focus more on patient care.
- Abstract(参考訳): 膨大なテキストデータを分析し、電子健康記録から重要な情報を要約することで、臨床医がどのように時間を割くかに大きな負担がかかる。
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では, 放射線診断報告, 患者質問, 進歩ノート, 医師と患者との対話の4つの異なる臨床要約課題に, 8つのLSMに適応法を適用した。
構文的、意味的、概念的NLPメトリクスによる定量的評価は、モデルと適応法の間のトレードオフを明らかにする。
10名の医師による臨床読者による研究は, 概略完全性, 正当性, 簡潔性を評価し, 多くの場合, もっとも適応したLSMの要約は, 医師の要約と同等(45%)か優れている(36%)かのどちらかである。
その後の安全性分析は、LLMと医療専門家の両方が直面している課題を浮き彫りにする。
本研究は,複数のタスクにまたがる臨床テキスト要約において,LSMが医療専門家より優れていた証拠を提供する。
このことは、LSMを臨床ワークフローに組み込むことでドキュメントの負担を軽減し、臨床医が患者のケアにもっと注力できることを示唆している。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。