論文の概要: Learning structures of the French clinical language:development and
validation of word embedding models using 21 million clinical reports from
electronic health records
- arxiv url: http://arxiv.org/abs/2207.12940v1
- Date: Tue, 26 Jul 2022 14:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:12:15.803275
- Title: Learning structures of the French clinical language:development and
validation of word embedding models using 21 million clinical reports from
electronic health records
- Title(参考訳): フランス語臨床言語の学習構造:電子健康記録からの2100万件の臨床報告を用いた単語埋め込みモデルの開発と検証
- Authors: Basile Dura, Charline Jean, Xavier Tannier, Alice Calliger, Romain
Bey, Antoine Neuraz, R\'emi Flicoteaux
- Abstract要約: 事前訓練された言語モデルを用いた伝達学習に基づく手法は、ほとんどのNLPアプリケーションで最先端の結果を得た。
本研究の目的は,下流医療NLP課題に対する言語モデルの適用が臨床報告に及ぼす影響を評価することである。
- 参考スコア(独自算出の注目度): 2.5709272341038027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background
Clinical studies using real-world data may benefit from exploiting clinical
reports, a particularly rich albeit unstructured medium. To that end, natural
language processing can extract relevant information. Methods based on transfer
learning using pre-trained language models have achieved state-of-the-art
results in most NLP applications; however, publicly available models lack
exposure to speciality-languages, especially in the medical field.
Objective
We aimed to evaluate the impact of adapting a language model to French
clinical reports on downstream medical NLP tasks.
Methods
We leveraged a corpus of 21M clinical reports collected from August 2017 to
July 2021 at the Greater Paris University Hospitals (APHP) to produce two
CamemBERT architectures on speciality language: one retrained from scratch and
the other using CamemBERT as its initialisation. We used two French annotated
medical datasets to compare our language models to the original CamemBERT
network, evaluating the statistical significance of improvement with the
Wilcoxon test.
Results
Our models pretrained on clinical reports increased the average F1-score on
APMed (an APHP-specific task) by 3 percentage points to 91%, a statistically
significant improvement. They also achieved performance comparable to the
original CamemBERT on QUAERO. These results hold true for the fine-tuned and
from-scratch versions alike, starting from very few pre-training samples.
Conclusions
We confirm previous literature showing that adapting generalist pre-train
language models such as CamenBERT on speciality corpora improves their
performance for downstream clinical NLP tasks. Our results suggest that
retraining from scratch does not induce a statistically significant performance
gain compared to fine-tuning.
- Abstract(参考訳): 実世界データを用いた背景臨床研究は、特にリッチな非構造化媒体である臨床報告の活用の恩恵を受ける可能性がある。
そのため、自然言語処理は関連する情報を抽出することができる。
事前訓練された言語モデルを用いたトランスファーラーニングに基づく手法は、ほとんどのNLPアプリケーションにおいて最先端の成果を上げている。
目的〕下流医療NLP課題に対するフランス語臨床報告に対する言語モデルの適用効果を評価することを目的とした。
方法 私たちは,2017年8月から2021年7月までに,パリ大大学病院(APHP)で収集された21万件の臨床報告のコーパスを利用して,特殊言語上の2つのCamemBERTアーキテクチャーを作成した。
フランスのアノテーション付き医療データセットを2つ使用して、言語モデルと元のcamembertネットワークを比較し、wilcoxonテストの改善の統計的意義を評価しました。
その結果,apmed(aphp特有のタスク)におけるf1-scoreの平均値が3ポイント上昇して91%となり,統計的に有意な改善が得られた。
彼らはまた、クエーロのオリジナルのカマンベールに匹敵するパフォーマンスを達成した。
これらの結果は、非常に少数の事前学習サンプルから始まる、微調整およびオフスクラッチバージョンにも当てはまる。
結論: 専門性コーパスにおけるCamenBERTなどの一般言語モデルの適用が, 下流臨床NLPタスクの性能を向上させることを示す以前の文献を確認した。
以上の結果から,スクラッチからのリトレーニングは,微調整に比べて統計的に有意な性能向上をもたらさないことが示唆された。
関連論文リスト
- DAEDRA: A language model for predicting outcomes in passive
pharmacovigilance reporting [0.0]
DAEDRAは、有害事象報告における規制関連結果を検出するために設計された大きな言語モデルである。
本稿では,DAEDRAの概念,設計,訓練,評価について述べる。
論文 参考訳(メタデータ) (2024-02-10T16:48:45Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。