論文の概要: Biomedical Entity Representations with Synonym Marginalization
- arxiv url: http://arxiv.org/abs/2005.00239v1
- Date: Fri, 1 May 2020 06:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:52:50.049045
- Title: Biomedical Entity Representations with Synonym Marginalization
- Title(参考訳): 同義語による生物医学的実体表現
- Authors: Mujeen Sung, Hwisang Jeon, Jinhyuk Lee, Jaewoo Kang
- Abstract要約: 我々は,生物医学的実体の表現を,実体の同義語のみに基づく学習に焦点をあてる。
モデルベースの候補は、モデルが進化するにつれて、より難しい負のサンプルを含むように反復的に更新されます。
私たちのモデルであるBioSynは、従来の最先端モデルよりもずっと優れています。
- 参考スコア(独自算出の注目度): 23.051019207472027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical named entities often play important roles in many biomedical text
mining tools. However, due to the incompleteness of provided synonyms and
numerous variations in their surface forms, normalization of biomedical
entities is very challenging. In this paper, we focus on learning
representations of biomedical entities solely based on the synonyms of
entities. To learn from the incomplete synonyms, we use a model-based candidate
selection and maximize the marginal likelihood of the synonyms present in top
candidates. Our model-based candidates are iteratively updated to contain more
difficult negative samples as our model evolves. In this way, we avoid the
explicit pre-selection of negative samples from more than 400K candidates. On
four biomedical entity normalization datasets having three different entity
types (disease, chemical, adverse reaction), our model BioSyn consistently
outperforms previous state-of-the-art models almost reaching the upper bound on
each dataset.
- Abstract(参考訳): 多くのバイオメディカルテキストマイニングツールにおいて、バイオメディカル名のエンティティが重要な役割を果たすことが多い。
しかし、提供された同義語の不完全性や表面形態の様々なバリエーションにより、生物医学的な実体の正規化は非常に困難である。
本稿では,生物医学的実体の表現を,実体の同義語のみに基づいて学習することに焦点を当てる。
不完全同義語から学ぶために、モデルに基づく候補選択を使い、最上位候補に存在する同義語の限界確率を最大化する。
モデルベースの候補は、モデルが進化するにつれてより難しい負のサンプルを含むように反復的に更新されます。
このようにして、400K以上の候補からの負のサンプルの明確な事前選択は避ける。
生物医学的実体正規化データセットの3つの異なる実体型(分解, 化学, 有害反応)において, われわれのモデルであるBioSynは, 従来の最先端モデルよりも常に上界にほぼ達している。
関連論文リスト
- BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - Biomedical Entity Linking as Multiple Choice Question Answering [48.74212158495695]
本稿では,バイオメディカルエンティティリンクを複数問合せ回答として扱う新モデルであるBioELQAを提案する。
まず、高速検索器を用いて候補エンティティを取得し、生成器に参照と候補エンティティを共同で提示し、選択したエンティティに関連付けられた予測シンボルを出力する。
長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、ジェネレータの検索インスタンスで入力する。
論文 参考訳(メタデータ) (2024-02-23T08:40:38Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Biomedical Interpretable Entity Representations [40.6095537182194]
事前訓練された言語モデルは、エンティティ中心のNLPタスクに強力なパフォーマンスを提供する密度の高いエンティティ表現を誘導する。
これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。
我々は、バイオメディカルテキストの大規模なコーパスから、新しいエンティティ型システムとトレーニングセットを作成する。
論文 参考訳(メタデータ) (2021-06-17T13:52:10Z) - Fast and Effective Biomedical Entity Linking Using a Dual Encoder [48.86736921025866]
文書中の複数の言及を1ショットで解決するBERTベースのデュアルエンコーダモデルを提案する。
本稿では,提案モデルが既存のBERTモデルよりも複数倍高速であり,バイオメディカルエンティティリンクの精度に競争力があることを示す。
論文 参考訳(メタデータ) (2021-03-08T19:32:28Z) - How Do Your Biomedical Named Entity Models Generalize to Novel Entities? [17.83980569600546]
記憶, 同義語一般化, 概念一般化の3種類のBioNERモデルの認識能力を解析する。
1)BioNERモデルは、その一般化能力の観点から過大評価され、(2)データセットバイアスを利用する傾向があり、これはモデルが一般化する能力を妨げる。
提案手法は,5つのベンチマークデータセット上での最先端(SOTA)モデルの一般化性を常に改善し,未確認のエンティティ参照に対してより優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-01-01T04:13:42Z) - A Lightweight Neural Model for Biomedical Entity Linking [1.8047694351309205]
本論文では,生物医学的実体連携のための軽量ニューラル手法を提案する。
本手法では,アライメント層とアライメント機構を用いて参照とエンティティ名の違いをキャプチャする。
私達のモデルは標準的な評価のベンチマークの前の仕事と競争です。
論文 参考訳(メタデータ) (2020-12-16T10:34:37Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。