論文の概要: How Do Your Biomedical Named Entity Models Generalize to Novel Entities?
- arxiv url: http://arxiv.org/abs/2101.00160v1
- Date: Fri, 1 Jan 2021 04:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:11:18.772463
- Title: How Do Your Biomedical Named Entity Models Generalize to Novel Entities?
- Title(参考訳): バイオメディカル名のエンティティモデルはどのようにして新しいエンティティに一般化するのか?
- Authors: Hyunjae Kim, Jaewoo Kang
- Abstract要約: 記憶, 同義語一般化, 概念一般化の3種類のBioNERモデルの認識能力を解析する。
1)BioNERモデルは、その一般化能力の観点から過大評価され、(2)データセットバイアスを利用する傾向があり、これはモデルが一般化する能力を妨げる。
提案手法は,5つのベンチマークデータセット上での最先端(SOTA)モデルの一般化性を常に改善し,未確認のエンティティ参照に対してより優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 17.83980569600546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of biomedical literature on new biomedical concepts is rapidly
increasing, which necessitates a reliable biomedical named entity recognition
(BioNER) model for identifying new and unseen entity mentions. However, it is
questionable whether existing BioNER models can effectively handle them. In
this work, we systematically analyze the three types of recognition abilities
of BioNER models: memorization, synonym generalization, and concept
generalization. We find that (1) BioNER models are overestimated in terms of
their generalization ability, and (2) they tend to exploit dataset biases,
which hinders the models' abilities to generalize. To enhance the
generalizability, we present a simple debiasing method based on the data
statistics. Our method consistently improves the generalizability of the
state-of-the-art (SOTA) models on five benchmark datasets, allowing them to
better perform on unseen entity mentions.
- Abstract(参考訳): 新たなバイオメディカル概念に関するバイオメディカル文献の数は急速に増加しており、新しい生物医学的実体認識(BioNER)モデルが必要である。
しかし、既存のBioNERモデルで効果的に扱えるかどうかは疑問である。
本研究では,BioNERモデルの3種類の認識能力,記憶,同義語一般化,概念一般化を体系的に解析する。
その結果,(1)BioNERモデルは一般化能力の面で過大評価され,(2)データセットバイアスを利用する傾向にあり,モデルが一般化する能力を妨げていることがわかった。
一般化性を高めるため,データ統計に基づく簡易なデバイアス法を提案する。
提案手法は,5つのベンチマークデータセット上での最先端(SOTA)モデルの一般化性を常に改善し,未確認のエンティティ参照に対してより優れたパフォーマンスを実現する。
関連論文リスト
- Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER [52.79573512427998]
低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを紹介する。
BioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解決するために訓練されている。
5つのベンチマークBioNERデータセットに対するBioAugの有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T02:04:38Z) - Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。
また、適切な事前学習データを通知する費用対効果のアプローチも開発している。
我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文 参考訳(メタデータ) (2021-06-23T08:20:13Z) - Biomedical Interpretable Entity Representations [40.6095537182194]
事前訓練された言語モデルは、エンティティ中心のNLPタスクに強力なパフォーマンスを提供する密度の高いエンティティ表現を誘導する。
これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。
我々は、バイオメディカルテキストの大規模なコーパスから、新しいエンティティ型システムとトレーニングセットを作成する。
論文 参考訳(メタデータ) (2021-06-17T13:52:10Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。