論文の概要: Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation
- arxiv url: http://arxiv.org/abs/2405.00715v1
- Date: Thu, 25 Apr 2024 15:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.361482
- Title: Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation
- Title(参考訳): エキスパートレベル臨床ノート作成のためのオープンソース大規模言語モデルの適用に向けて
- Authors: Hanyin Wang, Chufan Gao, Bolun Liu, Qiping Xu, Guleid Hussein, Mohamad El Labban, Kingsley Iheasirim, Hariprasad Korsapati, Jimeng Sun,
- Abstract要約: 大言語モデル(LLM)は、臨床テキスト要約タスクの処理において有望な能力を示している。
患者と医師の対話から高品質な臨床ノートを作成するために,小規模なオープンソース LLM を効果的に訓練できることを実証した。
- 参考スコア(独自算出の注目度): 19.721994833304517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown promising capabilities in handling clinical text summarization tasks. In this study, we demonstrate that a small open-source LLM can be effectively trained to generate high-quality clinical notes from outpatient patient-doctor dialogues. We achieve this through a comprehensive domain- and task-specific adaptation process for the LLaMA-2 13 billion parameter model. This process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced an enhanced approach, termed DistillDirect, for performing on-policy reinforcement learning with Gemini Pro serving as the teacher model. Our resulting model, LLaMA-Clinic, is capable of generating clinical notes that are comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as "acceptable" or higher across all three criteria: real-world readiness, completeness, and accuracy. Notably, in the more challenging "Assessment and Plan" section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness compared to physician-authored notes (4.1/5). Additionally, we identified caveats in public clinical note datasets, such as ACI-BENCH. We highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format. Overall, our research demonstrates the potential and feasibility of training smaller, open-source LLMs to assist with clinical documentation, capitalizing on healthcare institutions' access to patient records and domain expertise. We have made our newly created synthetic clinic dialogue-note dataset and the physician feedback dataset publicly available to foster future research in this field.
- Abstract(参考訳): 大言語モデル(LLM)は、臨床テキスト要約タスクの処理において有望な能力を示している。
本研究では,患者と医師の対話から高品質な臨床ノートを作成するために,小規模なオープンソースLSMを効果的に訓練できることを実証した。
我々はLLaMA-213億のパラメータモデルに対する包括的およびタスク固有の適応プロセスによりこれを実現する。
このプロセスには、継続的な事前トレーニング、教師付き微調整、AIと人間のフィードバックからの強化学習が含まれている。
我々は、教師モデルとしてジェミニ・プロを用いて、政治強化学習を行うための強化されたアプローチであるDistillDirectを導入した。
得られたモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。
盲目医学読者の研究では、個々の評価の90.4%がLLaMA-Clinicが生み出したノートを「許容可能」以上の3つの基準(現実の読みやすさ、完全性、正確性)で評価している。
特に、より困難な「評価と計画」のセクションでは、LLaMA-Clinic は医師が発行したノート (4.1/5) よりも現実の準備ができている(4.2/5)。
また,ACI-BENCHなどの公立臨床ノートデータセットの注意点も同定した。
今後の臨床ノート作成課題の重要課題を取り上げ,ベストプラクティスノートフォーマットの事前定義の重要性を強調した。
本研究は、医療機関が患者記録やドメインの専門知識にアクセスできることを活かして、より小規模でオープンソースのLCMを臨床文書化するためのトレーニングの可能性と可能性を示すものである。
我々は,この分野での今後の研究を促進するために,新たに作成した総合的クリニック・ダイアログ・ノートデータセットと医師のフィードバックデータセットを公開している。
関連論文リスト
- A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。
本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文 参考訳(メタデータ) (2024-11-06T10:02:50Z) - Large Language Models for Medical OSCE Assessment: A Novel Approach to Transcript Analysis [0.0]
テキサス大学サウスウェスタン医療センター(UTSW)における2,027件のビデオ録画OSCE検査について検討した。
本研究は, 学生の要約作業において, LLMに基づく様々な手法による評価を行い, 評価書に基づいて評価を行った。
以上の結果から, GPT-4のようなフロンティアLLMモデルでは, 人間の学級とのアライメントが顕著であった。
論文 参考訳(メタデータ) (2024-10-11T19:16:03Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - A Dataset and Benchmark for Hospital Course Summarization with Adapted Large Language Models [4.091402760759184]
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。
臨床ノートと短い病院コースをカプセル化したMIMIC-IV-BHC(MIMIC-IV-BHC)を導入した。
臨床ノートを入力として,3つのオープンソースLSMと2つの独自LSMに対して,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
論文 参考訳(メタデータ) (2024-03-08T23:17:55Z) - SoftTiger: A Clinical Foundation Model for Healthcare Workflows [5.181665205189493]
医療基盤モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。
我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。
公立および認証臨床データを用いて,最先端のLCMの微調整を指導した。
論文 参考訳(メタデータ) (2024-03-01T04:39:16Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。