論文の概要: GatorTron: A Large Clinical Language Model to Unlock Patient Information
from Unstructured Electronic Health Records
- arxiv url: http://arxiv.org/abs/2203.03540v3
- Date: Fri, 16 Dec 2022 22:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 00:57:21.333831
- Title: GatorTron: A Large Clinical Language Model to Unlock Patient Information
from Unstructured Electronic Health Records
- Title(参考訳): GatorTron:未構造化の電子カルテから患者の情報をアンロックする大規模臨床言語モデル
- Authors: Xi Yang, Aokun Chen, Nima PourNejatian, Hoo Chang Shin, Kaleb E Smith,
Christopher Parisien, Colin Compas, Cheryl Martin, Mona G Flores, Ying Zhang,
Tanja Magoc, Christopher A Harle, Gloria Lipori, Duane A Mitchell, William R
Hogan, Elizabeth A Shenkman, Jiang Bian, Yonghui Wu
- Abstract要約: 電子健康記録(EHR)を処理・解釈する人工知能(AI)システムの開発への関心が高まっている。
臨床言語モデルはほとんどないが、臨床領域で訓練された言語のうち最大のものは、比較的小さい1億1000万のパラメータである。
何十億ものパラメータを持つ大規模臨床言語モデルが、医療AIシステムが非構造化のEHRを利用するのにどの程度役立つかは明らかではない。
- 参考スコア(独自算出の注目度): 22.652798872046283
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There is an increasing interest in developing artificial intelligence (AI)
systems to process and interpret electronic health records (EHRs). Natural
language processing (NLP) powered by pretrained language models is the key
technology for medical AI systems utilizing clinical narratives. However, there
are few clinical language models, the largest of which trained in the clinical
domain is comparatively small at 110 million parameters (compared with billions
of parameters in the general domain). It is not clear how large clinical
language models with billions of parameters can help medical AI systems utilize
unstructured EHRs. In this study, we develop from scratch a large clinical
language model - GatorTron - using >90 billion words of text (including >82
billion words of de-identified clinical text) and systematically evaluate it on
5 clinical NLP tasks including clinical concept extraction, medical relation
extraction, semantic textual similarity, natural language inference (NLI), and
medical question answering (MQA). We examine how (1) scaling up the number of
parameters and (2) scaling up the size of the training data could benefit these
NLP tasks. GatorTron models scale up the clinical language model from 110
million to 8.9 billion parameters and improve 5 clinical NLP tasks (e.g., 9.6%
and 9.5% improvement in accuracy for NLI and MQA), which can be applied to
medical AI systems to improve healthcare delivery. The GatorTron models are
publicly available at:
https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.
- Abstract(参考訳): 電子健康記録(EHR)の処理と解釈を行う人工知能(AI)システムの開発への関心が高まっている。
言語モデルを用いた自然言語処理(NLP)は、臨床物語を利用した医療AIシステムの鍵となる技術である。
しかし、臨床言語モデルはほとんど存在せず、臨床領域で訓練された最大のものは、1億1千万のパラメータ(一般領域では数十億のパラメータに比較)で比較的小さい。
何十億ものパラメータを持つ大規模臨床言語モデルが、医療AIシステムが非構造化のEHRを利用するのにどの程度役立つかは明らかではない。
本研究では,900億語以上のテキストを用いた大規模臨床言語モデルであるGatorTronをスクラッチから開発し,臨床概念抽出,医療関係抽出,意味的テキスト類似性,自然言語推論(NLI),医療質問応答(MQA)を含む5つの臨床NLPタスクで体系的に評価する。
本研究では,(1)パラメータのスケールアップ,(2)トレーニングデータのスケールアップがNLPタスクにどのように役立つかを検討する。
GatorTronモデルは、臨床言語モデルを1億1000万から890億のパラメータにスケールアップし、5つの臨床NLPタスク(例えば、NLIとMQAの精度が9.6%、9.5%向上)を改善し、医療AIシステムに適用してヘルスケアデリバリーを改善する。
GatorTronモデルは、https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_ogで公開されている。
関連論文リスト
- BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - A Study of Generative Large Language Model for Medical Research and
Healthcare [25.361547229585184]
本研究は,200億のパラメータからなるGPT-3アーキテクチャを用いて,277億語と英語の混合テキストを用いた臨床生成LDMであるGatorTronGPTを開発した。
GatorTronGPTを用いて訓練された合成NLPモデルは、実際の臨床テキストを用いて訓練されたNLPモデルより優れたテキストを生成する。
論文 参考訳(メタデータ) (2023-05-22T22:37:24Z) - Contextualized Medication Information Extraction Using Transformer-based
Deep Learning Architectures [35.65283211002216]
薬剤の言及抽出,事象分類(治療内容の変更の有無を示す),文脈分類のためのNLPシステムを開発した。
我々は,900億語以上のテキストを用いて事前学習した大規模言語モデルであるGatorTronを含む,3つのサブタスクに対する最先端の事前学習型トランスフォーマモデルについて検討した。
我々のGatorTronモデルは、薬物抽出で0.9828(第3位)、イベント分類で0.9379(第2位)、文脈分類で0.9126(第2位)のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-03-14T22:22:28Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - Lightweight Transformers for Clinical Natural Language Processing [9.532776962985828]
本研究は,臨床テキスト処理のためのコンパクト言語モデルの開発に焦点をあてる。
知識蒸留と連続学習を用いた多種多様な軽量臨床用変圧器を開発した。
評価はいくつかの標準データセットにまたがって行われ、幅広い臨床テキストマイニングタスクをカバーした。
論文 参考訳(メタデータ) (2023-02-09T16:07:31Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。