論文の概要: Improving Biomedical Pretrained Language Models with Knowledge
- arxiv url: http://arxiv.org/abs/2104.10344v1
- Date: Wed, 21 Apr 2021 03:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:29:16.984577
- Title: Improving Biomedical Pretrained Language Models with Knowledge
- Title(参考訳): 知識による生物医学事前学習言語モデルの改善
- Authors: Zheng Yuan, Yijia Liu, Chuanqi Tan, Songfang Huang, Fei Huang
- Abstract要約: UMLS知識基盤の知識を明示的に活用したバイオメディカルプリトレーニング言語モデル「KeBioLM」を提案します。
具体的には、PubMedアブストラクトからエンティティを抽出し、UMLSにリンクします。
次に、まずテキストのみのエンコーディング層を適用してエンティティ表現を学習し、集合エンティティ表現にテキストエンティティ融合エンコーディングを適用するナレッジアウェア言語モデルを訓練する。
- 参考スコア(独自算出の注目度): 22.61591249168801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have shown success in many natural language
processing tasks. Many works explore incorporating knowledge into language
models. In the biomedical domain, experts have taken decades of effort on
building large-scale knowledge bases. For example, the Unified Medical Language
System (UMLS) contains millions of entities with their synonyms and defines
hundreds of relations among entities. Leveraging this knowledge can benefit a
variety of downstream tasks such as named entity recognition and relation
extraction. To this end, we propose KeBioLM, a biomedical pretrained language
model that explicitly leverages knowledge from the UMLS knowledge bases.
Specifically, we extract entities from PubMed abstracts and link them to UMLS.
We then train a knowledge-aware language model that firstly applies a text-only
encoding layer to learn entity representation and applies a text-entity fusion
encoding to aggregate entity representation. Besides, we add two training
objectives as entity detection and entity linking. Experiments on the named
entity recognition and relation extraction from the BLURB benchmark demonstrate
the effectiveness of our approach. Further analysis on a collected probing
dataset shows that our model has better ability to model medical knowledge.
- Abstract(参考訳): 事前訓練された言語モデルは、多くの自然言語処理タスクで成功している。
多くの研究が知識を言語モデルに組み入れている。
生物医学の分野では、専門家は大規模な知識基盤の構築に何十年も努力してきた。
例えば、統一医療言語システム(umls)は、その同義語を持つ数百万のエンティティを含み、エンティティ間の関係を定義している。
この知識を活用することで、名前付きエンティティ認識や関係抽出といった下流タスクの恩恵を受けることができる。
そこで本研究では,UMLS知識ベースからの知識を明示的に活用するバイオメディカル事前学習型言語モデルKeBioLMを提案する。
具体的には、PubMed抽象化からエンティティを抽出し、UMLSにリンクする。
次に、まず、エンティティ表現の学習にテキストのみの符号化層を適用し、エンティティ表現の集約にテキスト中心の融合符号化を適用する知識対応言語モデルを訓練する。
さらに、エンティティ検出とエンティティリンクの2つのトレーニング目標を追加します。
BLURBベンチマークから名前付きエンティティ認識と関係抽出実験を行い,本手法の有効性を示した。
収集された調査データセットのさらなる分析は、我々のモデルが医療知識をモデル化する能力を持っていることを示している。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - EMBRE: Entity-aware Masking for Biomedical Relation Extraction [12.821610050561256]
本稿では,関係抽出のためのEMBRE (Entity-Aware Masking for Biomedical Relation extract) 法を提案する。
具体的には、バックボーンモデルとエンティティマスキングの目的を事前学習することにより、エンティティ知識をディープニューラルネットワークに統合する。
論文 参考訳(メタデータ) (2024-01-15T18:12:01Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - Language Models sounds the Death Knell of Knowledge Graphs [0.0]
ディープラーニングに基づくNLP、特にLarge Language Models(LLM)は広く受け入れられており、多くのアプリケーションで広く使われている。
BioBERTとMed-BERTは医療分野向けに事前訓練された言語モデルである。
本稿では、知識グラフを用いることは、この領域の問題を解決する最善の解決策ではない、と論じる。
論文 参考訳(メタデータ) (2023-01-10T14:20:15Z) - Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文 参考訳(メタデータ) (2021-11-22T02:56:04Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。