論文の概要: UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus
- arxiv url: http://arxiv.org/abs/2010.10391v5
- Date: Thu, 3 Jun 2021 15:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:34:48.069094
- Title: UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus
- Title(参考訳): UmlsBERT:Unified Medical Language System Metathesaurusを用いたコンテキスト埋め込みの臨床領域知識増強
- Authors: George Michalopoulos, Yuanxin Wang, Hussam Kaka, Helen Chen and
Alexander Wong
- Abstract要約: 事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
- 参考スコア(独自算出の注目度): 73.86656026386038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual word embedding models, such as BioBERT and Bio_ClinicalBERT, have
achieved state-of-the-art results in biomedical natural language processing
tasks by focusing their pre-training process on domain-specific corpora.
However, such models do not take into consideration expert domain knowledge.
In this work, we introduced UmlsBERT, a contextual embedding model that
integrates domain knowledge during the pre-training process via a novel
knowledge augmentation strategy. More specifically, the augmentation on
UmlsBERT with the Unified Medical Language System (UMLS) Metathesaurus was
performed in two ways: i) connecting words that have the same underlying
`concept' in UMLS, and ii) leveraging semantic group knowledge in UMLS to
create clinically meaningful input embeddings. By applying these two
strategies, UmlsBERT can encode clinical domain knowledge into word embeddings
and outperform existing domain-specific models on common named-entity
recognition (NER) and clinical natural language inference clinical NLP tasks.
- Abstract(参考訳): BioBERTやBio_ClinicalBERTのような文脈単語埋め込みモデルは、その事前学習プロセスをドメイン固有のコーパスに集中させることで、バイオメディカル自然言語処理タスクにおける最先端の結果を得た。
しかし、そのようなモデルは専門家のドメイン知識を考慮しない。
本研究では,新しい知識強化戦略を通じて,事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介した。
より具体的には、Unified Medical Language System (UMLS) MetathesaurusによるUmlsBERTの拡張は2つの方法で実施された。
一 UMLSにおいて同じ「概念」を有する単語を接続し、
二 UMLSにおける意味群知識を活用して、臨床的に意味のある入力埋め込みを作成すること。
これらの2つの戦略を適用することで、UmlsBERTは、臨床ドメイン知識を単語埋め込みにエンコードし、共通の名前付き認識(NER)および臨床自然言語推論臨床NLPタスクにおける既存のドメイン固有モデルより優れている。
関連論文リスト
- Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - Combining Contrastive Learning and Knowledge Graph Embeddings to develop
medical word embeddings for the Italian language [0.0]
本論文は,イタリアの医療領域の未発見ニッチへの埋め込みを改良する試みである。
主な目的は、医療用語間の意味的類似性の精度を向上させることである。
イタリア語には医学的な文章や制御された語彙が欠けているため、我々は特定の解決法を開発した。
論文 参考訳(メタデータ) (2022-11-09T17:12:28Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - A Practical Approach towards Causality Mining in Clinical Text using
Active Transfer Learning [2.6125458645126907]
因果関係マイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。
この研究は、臨床テキストを因果知識に変換するフレームワークを作成することを目的としている。
論文 参考訳(メタデータ) (2020-12-10T06:51:13Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。