論文の概要: Rephrasing Electronic Health Records for Pretraining Clinical Language Models
- arxiv url: http://arxiv.org/abs/2411.18940v1
- Date: Thu, 28 Nov 2024 06:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:56.086026
- Title: Rephrasing Electronic Health Records for Pretraining Clinical Language Models
- Title(参考訳): 臨床言語モデルの事前学習のための電子健康記録の書き直し
- Authors: Jinghui Liu, Anthony Nguyen,
- Abstract要約: LLMを用いて既存の臨床ノートを書き換えて, 合成プレトレーニングコーパスを作成した。
異なるLSMから合成コーパスを付加したオリジナル臨床ノートの増補により,少額のトークン予算においても性能が向上することが判明した。
- 参考スコア(独自算出の注目度): 0.09819964822292428
- License:
- Abstract: Clinical language models are important for many applications in healthcare, but their development depends on access to extensive clinical text for pretraining. However, obtaining clinical notes from electronic health records (EHRs) at scale is challenging due to patient privacy concerns. In this study, we rephrase existing clinical notes using LLMs to generate synthetic pretraining corpora, drawing inspiration from previous work on rephrasing web data. We examine four popular small-sized LLMs (<10B) to create synthetic clinical text to pretrain both decoder-based and encoder-based language models. The method yields better results in language modeling and downstream tasks than previous synthesis approaches without referencing real clinical text. We find that augmenting original clinical notes with synthetic corpora from different LLMs improves performances even at a small token budget, showing the potential of this method to support pretraining at the institutional level or be scaled to synthesize large-scale clinical corpora.
- Abstract(参考訳): 臨床言語モデルは医療における多くの応用において重要であるが、その開発は事前訓練のための広範な臨床テキストへのアクセスに依存している。
しかし、患者のプライバシー上の懸念から、電子健康記録(EHR)を大規模に入手することは困難である。
本研究では,既存の臨床ノートを LLM を用いて書き直して合成事前学習コーパスを生成し,Web データの書き直しに関する以前の研究からインスピレーションを得た。
そこで本研究では,デコーダベースの言語モデルとエンコーダベースの言語モデルの両方を事前学習するための合成臨床テキストを作成するために,4種類の小型LPM (10B) について検討する。
本手法は, 実際の臨床テキストを参照することなく, 従来の合成手法よりも, 言語モデリングや下流タスクにおいて, より良い結果をもたらす。
異なるLSMから合成コーパスを付加した原本臨床ノートの増補により,少額のトークン予算においても性能が向上し,機関レベルでの事前トレーニングや大規模臨床コーパスの合成に活用できる可能性が示唆された。
関連論文リスト
- Retrieval-Reasoning Large Language Model-based Synthetic Clinical Trial Generation [8.567656208979475]
本稿では, 大規模言語モデルを利用した新規な検索・推論フレームワークを提案する。
urlClinicalTrials.govデータベースによる実際の臨床試験で実施された実験は、我々の合成データが実際のデータセットを効果的に増大させることができることを示した。
本研究は, 臨床研究を加速し, 患者プライバシの倫理基準を高くする上で, 総合臨床試験生成のためのLCMが期待できることを示唆する。
論文 参考訳(メタデータ) (2024-10-16T11:46:32Z) - Harmonising the Clinical Melody: Tuning Large Language Models for Hospital Course Summarisation in Clinical Coding [5.279406017862076]
病院のコースをまとめることの課題は、さらなる研究と開発のためのオープンな領域のままである。
Llama 3, BioMistral, Mistral Instruct v0.1 の3種類のプレトレーニング LLM を病院コース要約作業に適用した。
臨床領域の微調整の有効性を評価するため,BERTScoreおよびROUGE測定値を用いて微調整モデルの評価を行った。
論文 参考訳(メタデータ) (2024-09-23T00:35:23Z) - Synthetic4Health: Generating Annotated Synthetic Clinical Letters [6.822926897514792]
臨床手紙には機密情報が含まれているため、モデルトレーニング、医学研究、教育には臨床関連データセットが広く適用できない。
本研究は, 信頼性, 各種, 未同定の総合臨床書面を生成することを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:15:07Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Dynamic Q&A of Clinical Documents with Large Language Models [3.021316686584699]
本研究は,臨床ノートにおける動的質問応答のための大規模言語モデル(LLM)を用いた自然言語インタフェースを提案する。
様々な埋め込みモデルと高度なLLMを利用する実験は、高い計算要求にもかかわらず、ウィザード・ヴィクナの優れた精度を示している。
論文 参考訳(メタデータ) (2024-01-19T14:50:22Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。