論文の概要: Integration of Domain Knowledge using Medical Knowledge Graph Deep
Learning for Cancer Phenotyping
- arxiv url: http://arxiv.org/abs/2101.01337v1
- Date: Tue, 5 Jan 2021 03:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:45:37.498884
- Title: Integration of Domain Knowledge using Medical Knowledge Graph Deep
Learning for Cancer Phenotyping
- Title(参考訳): 医用知識グラフ深層学習を用いたがん診断のためのドメイン知識の統合
- Authors: Mohammed Alawad, Shang Gao, Mayanka Chandra Shekar, S.M.Shamimul
Hasan, J. Blair Christian, Xiao-Cheng Wu, Eric B. Durbin, Jennifer Doherty,
Antoinette Stroup, Linda Coyle, Lynne Penberthy, Georgia Tourassi
- Abstract要約: 本稿では,医学用語からの外部知識を単語埋め込みによって捉えた文脈に統合する手法を提案する。
提案手法は,Multitask Convolutional Neural Network (MT-CNN) を用いて,900Kの癌病理所見のデータセットから6つのがん特性を抽出する。
- 参考スコア(独自算出の注目度): 6.077023952306772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key component of deep learning (DL) for natural language processing (NLP)
is word embeddings. Word embeddings that effectively capture the meaning and
context of the word that they represent can significantly improve the
performance of downstream DL models for various NLP tasks. Many existing word
embeddings techniques capture the context of words based on word co-occurrence
in documents and text; however, they often cannot capture broader
domain-specific relationships between concepts that may be crucial for the NLP
task at hand. In this paper, we propose a method to integrate external
knowledge from medical terminology ontologies into the context captured by word
embeddings. Specifically, we use a medical knowledge graph, such as the unified
medical language system (UMLS), to find connections between clinical terms in
cancer pathology reports. This approach aims to minimize the distance between
connected clinical concepts. We evaluate the proposed approach using a
Multitask Convolutional Neural Network (MT-CNN) to extract six cancer
characteristics -- site, subsite, laterality, behavior, histology, and grade --
from a dataset of ~900K cancer pathology reports. The results show that the
MT-CNN model which uses our domain informed embeddings outperforms the same
MT-CNN using standard word2vec embeddings across all tasks, with an improvement
in the overall micro- and macro-F1 scores by 4.97\%and 22.5\%, respectively.
- Abstract(参考訳): 自然言語処理(NLP)のためのディープラーニング(DL)の重要なコンポーネントは、単語埋め込みである。
単語の意味や文脈を効果的に捉えた単語埋め込みは、様々なNLPタスクのための下流DLモデルの性能を大幅に向上させることができる。
既存の単語埋め込み技術の多くは、文書やテキストにおける単語共起に基づく単語のコンテキストをキャプチャするが、手元にあるNLPタスクにとって重要な概念間の、より広範なドメイン固有の関係をキャプチャすることはできない。
本稿では,医学用語オントロジーからの外部知識を,単語埋め込みによって捉えた文脈に統合する手法を提案する。
具体的には、がん病理報告における臨床用語間の関係を見つけるために、UMLS(Unified Medical Language System)のような医療知識グラフを用いる。
本研究の目的は,臨床概念間の距離を最小化することである。
我々は,Multitask Convolutional Neural Network (MT-CNN) を用いて,約900Kの癌病理報告のデータセットから6つのがん特性(部位,部位,側方性,行動,組織学,学年)を抽出する手法を提案する。
その結果,ドメイン情報埋め込みを用いたMT-CNNモデルは,すべてのタスクに標準単語2vec埋め込みを用いて同一のMT-CNNより優れており,マイクロF1のスコアは4.97\%,マクロF1のスコアは22.5\%向上した。
関連論文リスト
- UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - Combining Contrastive Learning and Knowledge Graph Embeddings to develop
medical word embeddings for the Italian language [0.0]
本論文は,イタリアの医療領域の未発見ニッチへの埋め込みを改良する試みである。
主な目的は、医療用語間の意味的類似性の精度を向上させることである。
イタリア語には医学的な文章や制御された語彙が欠けているため、我々は特定の解決法を開発した。
論文 参考訳(メタデータ) (2022-11-09T17:12:28Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Knowledge-Base Enriched Word Embeddings for Biomedical Domain [5.086571902225929]
利用可能なコーポラとドメイン知識の情報を共同利用したバイオメディカルドメインのための新しい単語埋め込みモデルを提案する。
既存のアプローチとは異なり、提案手法は単純だが、ドメインリソースで利用可能な正確な知識を正しく捉えることに長けている。
論文 参考訳(メタデータ) (2021-02-20T18:18:51Z) - A Multi-Task Deep Learning Framework to Localize the Eloquent Cortex in
Brain Tumor Patients Using Dynamic Functional Connectivity [7.04584289867204]
脳腫瘍患者の大脳皮質の言語と運動領域を同時に局在させるために動的機能接続を用いた新しいディープラーニングフレームワークを提案する。
本モデルは,従来の深層学習手法よりも高い局所化精度を達成し,左半球側方化症例で訓練した場合でも,両言語領域を識別できる。
論文 参考訳(メタデータ) (2020-11-17T18:18:09Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。