論文の概要: Med7: a transferable clinical natural language processing model for
electronic health records
- arxiv url: http://arxiv.org/abs/2003.01271v2
- Date: Fri, 24 Apr 2020 13:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:15:58.629386
- Title: Med7: a transferable clinical natural language processing model for
electronic health records
- Title(参考訳): Med7: 電子健康記録のための転写可能な自然言語処理モデル
- Authors: Andrey Kormilitzin, Nemanja Vaci, Qiang Liu, Alejo Nevado-Holgado
- Abstract要約: 本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
- 参考スコア(独自算出の注目度): 6.935142529928062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of clinical natural language processing has been advanced
significantly since the introduction of deep learning models. The
self-supervised representation learning and the transfer learning paradigm
became the methods of choice in many natural language processing application,
in particular in the settings with the dearth of high quality manually
annotated data. Electronic health record systems are ubiquitous and the
majority of patients' data are now being collected electronically and in
particular in the form of free text. Identification of medical concepts and
information extraction is a challenging task, yet important ingredient for
parsing unstructured data into structured and tabulated format for downstream
analytical tasks. In this work we introduced a named-entity recognition model
for clinical natural language processing. The model is trained to recognise
seven categories: drug names, route, frequency, dosage, strength, form,
duration. The model was first self-supervisedly pre-trained by predicting the
next word, using a collection of 2 million free-text patients' records from
MIMIC-III corpora and then fine-tuned on the named-entity recognition task. The
model achieved a lenient (strict) micro-averaged F1 score of 0.957 (0.893)
across all seven categories. Additionally, we evaluated the transferability of
the developed model using the data from the Intensive Care Unit in the US to
secondary care mental health records (CRIS) in the UK. A direct application of
the trained NER model to CRIS data resulted in reduced performance of F1=0.762,
however after fine-tuning on a small sample from CRIS, the model achieved a
reasonable performance of F1=0.944. This demonstrated that despite a close
similarity between the data sets and the NER tasks, it is essential to
fine-tune on the target domain data in order to achieve more accurate results.
- Abstract(参考訳): 臨床自然言語処理の分野は,深層学習モデルの導入以来,大きく進歩してきた。
自己教師付き表現学習と転送学習パラダイムは、多くの自然言語処理アプリケーション、特に高品質な手作業による注釈付きデータの設定において、選択の方法となった。
電子健康記録システムはユビキタスであり、患者のデータの大部分は現在、特にフリーテキストの形で電子的に収集されている。
医療概念の同定と情報抽出は、下流分析タスクのための構造化および集計されたフォーマットに非構造化データを解析するための重要な要素である。
本研究では,臨床自然言語処理のための認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
モデルはまず、MIMIC-IIIコーパスから200万のフリーテキスト患者の記録を収集し、その名義認識タスクを微調整し、次の単語を予測することによって、自己指導的に事前訓練された。
このモデルは7つのカテゴリすべてで0.957 (0.893)のレネント(狭義)なマイクロ平均f1スコアを達成した。
さらに,米国の集中治療ユニットから英国における二次医療精神保健記録(cris)へのデータを用いて,開発モデルの移行可能性を評価した。
CRISデータへのNERモデルの直接適用により、F1=0.762の性能は低下したが、CRISから小さなサンプルを微調整した後、F1=0.944の性能を達成した。
これは、データセットとNERタスクの密接な類似性にもかかわらず、より正確な結果を得るためには、対象のドメインデータを微調整することが不可欠であることを示した。
関連論文リスト
- Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - TrialGraph: Machine Intelligence Enabled Insight from Graph Modelling of
Clinical Trials [0.0]
我々はCT.gov, AACT, TrialTroveデータベースから収集した治験データセット(n=1191臨床試験、100万人の患者を代表する)を紹介する。
次に,グラフ機械学習アルゴリズムの数学的基礎と実装について詳述する。
我々はこれらのモデルを用いて、疾患、既往の医療状況、治療に関する情報を与えられた臨床試験の副作用情報を予測する訓練を行った。
論文 参考訳(メタデータ) (2021-12-15T15:36:57Z) - GERNERMED -- An Open German Medical NER Model [0.7310043452300736]
医療データ分析の分野でのデータマイニングは、関連するデータを取得するために、構造化されていないデータの処理にのみ依存する必要があることが多い。
本研究では,ドイツのテキストデータにおける医学的実体型を検出するためのNERタスクのための,最初のオープンなニューラルNLPモデルであるGERNERMEDを提案する。
論文 参考訳(メタデータ) (2021-09-24T17:53:47Z) - Pre-training transformer-based framework on large-scale pediatric claims
data for downstream population-specific tasks [3.1580072841682734]
本研究は、小児科のクレームデータセット全体をトレーニングする一般的な事前学習モデルであるClaim Pre-Training(Claim-PT)フレームワークを提案する。
効果的な知識伝達はタスク対応微調整段階を通じて完了する。
我々は100万人以上の患者記録を持つ実世界のクレームデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-06-24T15:25:41Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。