論文の概要: Clinical Named Entity Recognition using Contextualized Token
Representations
- arxiv url: http://arxiv.org/abs/2106.12608v1
- Date: Wed, 23 Jun 2021 18:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-26 09:52:02.583442
- Title: Clinical Named Entity Recognition using Contextualized Token
Representations
- Title(参考訳): contextized token representationsを用いた臨床名付きエンティティ認識
- Authors: Yichao Zhou, Chelsea Ju, J. Harry Caufield, Kevin Shih, Calvin Chen,
Yizhou Sun, Kai-Wei Chang, Peipei Ping, Wei Wang
- Abstract要約: 本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
- 参考スコア(独自算出の注目度): 49.036805795072645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The clinical named entity recognition (CNER) task seeks to locate and
classify clinical terminologies into predefined categories, such as diagnostic
procedure, disease disorder, severity, medication, medication dosage, and sign
symptom. CNER facilitates the study of side-effect on medications including
identification of novel phenomena and human-focused information extraction.
Existing approaches in extracting the entities of interests focus on using
static word embeddings to represent each word. However, one word can have
different interpretations that depend on the context of the sentences.
Evidently, static word embeddings are insufficient to integrate the diverse
interpretation of a word. To overcome this challenge, the technique of
contextualized word embedding has been introduced to better capture the
semantic meaning of each word based on its context. Two of these language
models, ELMo and Flair, have been widely used in the field of Natural Language
Processing to generate the contextualized word embeddings on domain-generic
documents. However, these embeddings are usually too general to capture the
proximity among vocabularies of specific domains. To facilitate various
downstream applications using clinical case reports (CCRs), we pre-train two
deep contextualized language models, Clinical Embeddings from Language Model
(C-ELMo) and Clinical Contextual String Embeddings (C-Flair) using the
clinical-related corpus from the PubMed Central. Explicit experiments show that
our models gain dramatic improvements compared to both static word embeddings
and domain-generic language models.
- Abstract(参考訳): clinical named entity recognition (cner) タスクは、診断手順、疾患障害、重症度、薬物、薬物量、徴候などの予め定義されたカテゴリに臨床用語を分類することを目的としている。
CNERは、新しい現象の同定や人為的な情報抽出を含む薬物に対する副作用の研究を促進する。
関心の実体を抽出する既存のアプローチは、各単語を表現するために静的な単語埋め込みを使うことに焦点を当てている。
しかし、1つの単語は、文の文脈に依存する異なる解釈を持つことができる。
静的な単語埋め込みは、単語の多様な解釈を統合するには不十分である。
この課題を克服するために,各単語の意味的意味をより正確に把握するために,文脈的単語埋め込み技術が導入された。
これら2つの言語モデルであるelmoとflairは、自然言語処理の分野で広く使われ、ドメインジェネリックドキュメントにコンテキスト化された単語埋め込みを生成する。
しかし、これらの埋め込みは通常、特定のドメインの語彙間の近接を捉えるには一般的すぎる。
臨床症例報告 (CCR) を用いた下流の様々な応用を容易にするため, PubMed Central による臨床関連コーパスを用いて, 深層文脈言語モデル (C-ELMo) と臨床コンテキスト文字列埋め込み (C-Flair) を事前訓練した。
明示的な実験により、私たちのモデルは静的な単語埋め込みとドメイン固有言語モデルの両方と比較して劇的な改善が得られます。
関連論文リスト
- Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques [0.0]
複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。
UMLS(Unified Medical Language System)のようなオントロジーは、何百万もの臨床エンティティを格納するために開発・維持されている。
そこで本稿では,エンティティの曖昧さを解消するために,コンテキストベースとコンテキストレスの省力化手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T01:14:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Applying unsupervised keyphrase methods on concepts extracted from
discharge sheets [7.102620843620572]
各内容が記録されている部分を特定し、また、臨床テキストから意味を抽出するための重要な概念を特定する必要がある。
本研究では,臨床自然言語処理技術を用いて,これらの課題に対処した。
一般的な教師なしキーフレーズ抽出手法が検証され,評価されている。
論文 参考訳(メタデータ) (2023-03-15T20:55:25Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Drug and Disease Interpretation Learning with Biomedical Entity
Representation Transformer [9.152161078854146]
自由形式のテキストにおける概念正規化は、あらゆるテキストマイニングパイプラインにおいて重要なステップです。
微調整BERTアーキテクチャに基づくシンプルで効果的な2段階のニューラルアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-22T20:01:25Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings [16.136832979324467]
本研究は,MIMIC-III 病院データセットから医療用ノートにディープ埋め込みモデル(BERT)を事前訓練する。
文脈的単語埋め込みによって捉えられる危険な潜伏関係を同定する。
我々は,50以上の下流臨床予測課題において,フェアネスの定義の異なる性能ギャップを評価する。
論文 参考訳(メタデータ) (2020-03-11T23:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。