論文の概要: UBERT: A Novel Language Model for Synonymy Prediction at Scale in the
UMLS Metathesaurus
- arxiv url: http://arxiv.org/abs/2204.12716v1
- Date: Wed, 27 Apr 2022 06:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 22:28:11.605216
- Title: UBERT: A Novel Language Model for Synonymy Prediction at Scale in the
UMLS Metathesaurus
- Title(参考訳): UBERT:UMLSメタテーゼにおける大規模同期予測のための新しい言語モデル
- Authors: Thilini Wijesiriwardene, Vinh Nguyen, Goonmeet Bajaj, Hong Yung Yip,
Vishesh Javangula, Yuqing Mao, Kin Wah Fung, Srinivasan Parthasarathy, Amit
P. Sheth, Olivier Bodenreider
- Abstract要約: BERTベースの言語モデルであるUBERTは、教師付き同期予測(SP)タスクを介してUMLS用語で事前訓練されている。
以上の結果から,UBERT は LexLM や BERT をベースとしたバイオメディカルモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 12.331348927974242
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The UMLS Metathesaurus integrates more than 200 biomedical source
vocabularies. During the Metathesaurus construction process, synonymous terms
are clustered into concepts by human editors, assisted by lexical similarity
algorithms. This process is error-prone and time-consuming. Recently, a deep
learning model (LexLM) has been developed for the UMLS Vocabulary Alignment
(UVA) task. This work introduces UBERT, a BERT-based language model, pretrained
on UMLS terms via a supervised Synonymy Prediction (SP) task replacing the
original Next Sentence Prediction (NSP) task. The effectiveness of UBERT for
UMLS Metathesaurus construction process is evaluated using the UMLS Vocabulary
Alignment (UVA) task. We show that UBERT outperforms the LexLM, as well as
biomedical BERT-based models. Key to the performance of UBERT are the synonymy
prediction task specifically developed for UBERT, the tight alignment of
training data to the UVA task, and the similarity of the models used for
pretrained UBERT.
- Abstract(参考訳): UMLS Metathesaurusは200以上のバイオメディカルソースの語彙を統合している。
metathesaurus構築過程において、同義語は人間の編集者によって概念にまとめられ、語彙的類似性アルゴリズムによって支援される。
このプロセスはエラーを起こし、時間がかかる。
近年,UMLS語彙アライメント(UVA)タスクのためのディープラーニングモデル(LexLM)が開発されている。
本研究は,元来のnext sentence prediction (nsp)タスクを置き換える教師付き同義語予測 (supervised synonymy prediction, sp) タスクを通じてumls用語を事前学習した,bertベースの言語モデルであるubertを紹介する。
UMLSメタテーゼ構築プロセスにおけるUBERTの有効性をUMLS語彙アライメント(UVA)タスクを用いて評価する。
以上の結果から,UBERT は LexLM や BERT をベースとしたバイオメディカルモデルよりも優れていた。
UBERTの性能の鍵となるのは、UBERT用に特別に開発された同義的予測タスク、UVAタスクへのトレーニングデータの厳密なアライメント、および事前訓練されたUBERTに使用されるモデルの類似性である。
関連論文リスト
- Exploring Category Structure with Contextual Language Models and Lexical
Semantic Networks [0.0]
我々は、典型値の予測のために、CLMを探索するためのより広い範囲の手法を試験する。
BERTを用いた実験では,CLMプローブの適切な利用の重要性が示された。
その結果, この課題における多義性の重要性が浮き彫りとなった。
論文 参考訳(メタデータ) (2023-02-14T09:57:23Z) - Improving Contextual Representation with Gloss Regularized Pre-training [9.589252392388758]
本稿では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。
マスクされた単語を予測し、コンテキスト埋め込みを対応するグルースに同時にアライメントすることにより、単語の類似性を明示的にモデル化することができる。
実験結果から,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2022-05-13T12:50:32Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - Evaluating Biomedical BERT Models for Vocabulary Alignment at Scale in
the UMLS Metathesaurus [8.961270657070942]
現在のUMLS(Unified Medical Language System)メタテーザウルス構築プロセスは高価でエラーを起こしやすい。
自然言語処理の最近の進歩は、下流タスクにおける最先端(SOTA)のパフォーマンスを達成している。
BERTモデルを用いたアプローチがUMLSメタテーラスの同義語予測において,既存のアプローチよりも優れているかどうかを検証することを目的としている。
論文 参考訳(メタデータ) (2021-09-14T16:52:16Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。