論文の概要: SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with
Structured Semantics for Medical Text Mining
- arxiv url: http://arxiv.org/abs/2108.08983v1
- Date: Fri, 20 Aug 2021 03:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:31:49.352633
- Title: SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with
Structured Semantics for Medical Text Mining
- Title(参考訳): SMedBERT:医療用テキストマイニングのための構造化意味論的知識強化型事前学習言語モデル
- Authors: Taolin Zhang, Zerui Cai, Chengyu Wang, Minghui Qiu, Bite Yang,
Xiaofeng He
- Abstract要約: SMedBERTは大規模医療コーパスで訓練された医療用PLMである。
SMedBERTでは、異種関係の情報を学習するために、隣り合うハイブリットアテンションが提案されている。
SMedBERTは、様々な知識集約的な中国の医療タスクにおいて、強いベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 15.809776934712147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the performance of Pre-trained Language Models (PLMs) has been
significantly improved by injecting knowledge facts to enhance their abilities
of language understanding. For medical domains, the background knowledge
sources are especially useful, due to the massive medical terms and their
complicated relations are difficult to understand in text. In this work, we
introduce SMedBERT, a medical PLM trained on large-scale medical corpora,
incorporating deep structured semantic knowledge from neighbors of
linked-entity.In SMedBERT, the mention-neighbor hybrid attention is proposed to
learn heterogeneous-entity information, which infuses the semantic
representations of entity types into the homogeneous neighboring entity
structure. Apart from knowledge integration as external features, we propose to
employ the neighbors of linked-entities in the knowledge graph as additional
global contexts of text mentions, allowing them to communicate via shared
neighbors, thus enrich their semantic representations. Experiments demonstrate
that SMedBERT significantly outperforms strong baselines in various
knowledge-intensive Chinese medical tasks. It also improves the performance of
other tasks such as question answering, question matching and natural language
inference.
- Abstract(参考訳): 近年,言語理解能力を高めるために知識事実を注入することにより,事前学習言語モデル(PLM)の性能が大幅に向上している。
医学領域では、膨大な医学用語とそれらの複雑な関係がテキストで理解しにくいため、背景知識源は特に有用である。
本研究では,大規模医療コーパスを訓練した医療用PLMであるSMedBERTを紹介する。SMedBERTでは,近縁者の近縁者からの深い構造的意味的知識を取り入れて,異種関係情報を学習し,エンティティタイプの意味的表現を同質な隣接エンティティ構造に注入する。
外部機能としての知識統合は別として、知識グラフ内のリンクエンティティの隣人をテキスト参照のグローバルなコンテキストとして利用し、共有された隣人を介してコミュニケーションし、セマンティック表現を豊かにすることを提案する。
SMedBERTは、様々な知識集約的な中国の医療タスクにおいて、強いベースラインを著しく上回ることを示した。
質問応答や質問マッチング,自然言語推論など,他のタスクのパフォーマンスも向上している。
関連論文リスト
- Towards Knowledge-Grounded Natural Language Understanding and Generation [1.450405446885067]
この論文は、トランスフォーマーモデルによる自然言語の理解と生成が、モデルに知識表現を組み込むことの利点について考察する。
この論文では、関連性のある、最新のエンティティの知識を取り入れることで、偽ニュース検出の恩恵を受ける。
パラメトリックな知識や蒸留された知識といった他の一般的な知識は、多言語および多言語的な知識集約的なタスクを強化することが確立されている。
論文 参考訳(メタデータ) (2024-03-22T17:32:43Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems [58.561904356651276]
本稿では,対話型推薦システムのためのエンティティの意味理解を改善するために,知識強化型エンティティ表現学習(KERL)フレームワークを紹介する。
KERLは知識グラフと事前訓練された言語モデルを使用して、エンティティの意味的理解を改善する。
KERLはレコメンデーションとレスポンス生成の両方のタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-18T06:41:23Z) - Biomedical Entity Linking with Triple-aware Pre-Training [7.536753993136013]
我々は,KGから合成したコーパスを用いて,強力な大規模言語モデル(LLM)を事前学習するフレームワークを提案する。
評価では、同義語、記述、関係情報を含む利点を確認できない。
論文 参考訳(メタデータ) (2023-08-28T09:06:28Z) - Improving Biomedical Pretrained Language Models with Knowledge [22.61591249168801]
UMLS知識基盤の知識を明示的に活用したバイオメディカルプリトレーニング言語モデル「KeBioLM」を提案します。
具体的には、PubMedアブストラクトからエンティティを抽出し、UMLSにリンクします。
次に、まずテキストのみのエンコーディング層を適用してエンティティ表現を学習し、集合エンティティ表現にテキストエンティティ融合エンコーディングを適用するナレッジアウェア言語モデルを訓練する。
論文 参考訳(メタデータ) (2021-04-21T03:57:26Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - JAKET: Joint Pre-training of Knowledge Graph and Language Understanding [73.43768772121985]
本稿では,知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるJAKETを提案する。
知識モジュールと言語モジュールは相互に支援するための重要な情報を提供する。
我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。
論文 参考訳(メタデータ) (2020-10-02T05:53:36Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。