論文の概要: Self-Alignment Pretraining for Biomedical Entity Representations
- arxiv url: http://arxiv.org/abs/2010.11784v2
- Date: Wed, 7 Apr 2021 11:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:45:43.121759
- Title: Self-Alignment Pretraining for Biomedical Entity Representations
- Title(参考訳): バイオメディカルエンティティ表現のための自己アライメント事前学習
- Authors: Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng, Marco Basaldella, Nigel
Collier
- Abstract要約: バイオメディカルエンティティの表現空間を自己調整する事前学習スキームであるSapBERTを提案する。
我々は、バイオメディカルエンティティの大規模なコレクションであるUMLSを活用可能なスケーラブルなメトリック学習フレームワークを設計する。
- 参考スコア(独自算出の注目度): 37.09383468126953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the widespread success of self-supervised learning via masked
language models (MLM), accurately capturing fine-grained semantic relationships
in the biomedical domain remains a challenge. This is of paramount importance
for entity-level tasks such as entity linking where the ability to model entity
relations (especially synonymy) is pivotal. To address this challenge, we
propose SapBERT, a pretraining scheme that self-aligns the representation space
of biomedical entities. We design a scalable metric learning framework that can
leverage UMLS, a massive collection of biomedical ontologies with 4M+ concepts.
In contrast with previous pipeline-based hybrid systems, SapBERT offers an
elegant one-model-for-all solution to the problem of medical entity linking
(MEL), achieving a new state-of-the-art (SOTA) on six MEL benchmarking
datasets. In the scientific domain, we achieve SOTA even without task-specific
supervision. With substantial improvement over various domain-specific
pretrained MLMs such as BioBERT, SciBERTand and PubMedBERT, our pretraining
scheme proves to be both effective and robust.
- Abstract(参考訳): マスキング言語モデル(MLM)による自己教師型学習が広く普及しているにもかかわらず、バイオメディカル領域におけるきめ細かい意味関係を正確に把握することは依然として困難である。
これはエンティティリンクのようなエンティティレベルのタスクにおいて重要であり、エンティティリレーション(特に同義語)をモデル化する能力は重要である。
この課題に対処するために,バイオメディカルエンティティの表現空間を自己調整する事前学習スキームであるSapBERTを提案する。
4M以上の概念を持つバイオメディカルオントロジーの大規模なコレクションであるUMLSを活用可能なスケーラブルなメトリック学習フレームワークを設計する。
従来のパイプラインベースのハイブリッドシステムとは対照的に、SapBERTは医療エンティティリンク(MEL)問題に対するエレガントなワンモデル・フォー・オールソリューションを提供し、6つのMELベンチマークデータセット上で新しい最先端(SOTA)を実現する。
科学分野では,タスク固有の監督がなくてもSOTAを実現する。
BioBERT, SciBERTand, PubMedBERTなど, ドメイン固有の事前学習型MLMの大幅な改善により, 事前学習方式は有効かつ堅牢であることが証明された。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs [27.32543389443672]
独立に訓練された単調FMをブリッジしてマルチモーダル動作を確立するための,パラメータ効率のよい新しい学習フレームワークであるBioBridgeを提案する。
実験結果から,BioBridgeは最高基準のKG埋め込み法に勝ることを示した。
また、BioBridgeは、未知のモダリティや関係を外挿することで、ドメイン外一般化能力を示す。
論文 参考訳(メタデータ) (2023-10-05T05:30:42Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - Interpretability from a new lens: Integrating Stratification and Domain
knowledge for Biomedical Applications [0.0]
本稿では, バイオメディカル問題データセットの k-fold cross-validation (CV) への階層化のための新しい計算手法を提案する。
このアプローチはモデルの安定性を改善し、信頼を確立し、トレーニングされたIMLモデルによって生成された結果の説明を提供する。
論文 参考訳(メタデータ) (2023-03-15T12:02:02Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Evaluating Biomedical BERT Models for Vocabulary Alignment at Scale in
the UMLS Metathesaurus [8.961270657070942]
現在のUMLS(Unified Medical Language System)メタテーザウルス構築プロセスは高価でエラーを起こしやすい。
自然言語処理の最近の進歩は、下流タスクにおける最先端(SOTA)のパフォーマンスを達成している。
BERTモデルを用いたアプローチがUMLSメタテーラスの同義語予測において,既存のアプローチよりも優れているかどうかを検証することを目的としている。
論文 参考訳(メタデータ) (2021-09-14T16:52:16Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。