論文の概要: BELB: a Biomedical Entity Linking Benchmark
- arxiv url: http://arxiv.org/abs/2308.11537v1
- Date: Tue, 22 Aug 2023 16:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:16:46.275242
- Title: BELB: a Biomedical Entity Linking Benchmark
- Title(参考訳): belb: バイオメディカルなエンティティリンクベンチマーク
- Authors: Samuele Garda, Leon Weber-Genzel, Robert Martin, Ulf Leser
- Abstract要約: 本研究は,本分野における最近の研究成果を概観し,生物医学的テキストマイニングのための既存のベンチマークからその課題が欠落していることを見出した。
我々は、バイオメディカルエンティティリンクベンチマークであるBELBを開発し、7つの知識ベースにリンクされた11のコーパスに統一されたフォーマットでアクセスできるようにした。
BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用した最近の3つのニューラルアプローチを広範囲に評価する。
- 参考スコア(独自算出の注目度): 3.9648178546218817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Biomedical entity linking (BEL) is the task of grounding entity mentions to a
knowledge base. It plays a vital role in information extraction pipelines for
the life sciences literature. We review recent work in the field and find that,
as the task is absent from existing benchmarks for biomedical text mining,
different studies adopt different experimental setups making comparisons based
on published numbers problematic. Furthermore, neural systems are tested
primarily on instances linked to the broad coverage knowledge base UMLS,
leaving their performance to more specialized ones, e.g. genes or variants,
understudied. We therefore developed BELB, a Biomedical Entity Linking
Benchmark, providing access in a unified format to 11 corpora linked to 7
knowledge bases and spanning six entity types: gene, disease, chemical,
species, cell line and variant. BELB greatly reduces preprocessing overhead in
testing BEL systems on multiple corpora offering a standardized testbed for
reproducible experiments. Using BELB we perform an extensive evaluation of six
rule-based entity-specific systems and three recent neural approaches
leveraging pre-trained language models. Our results reveal a mixed picture
showing that neural approaches fail to perform consistently across entity
types, highlighting the need of further studies towards entity-agnostic models.
- Abstract(参考訳): バイオメディカル・エンティティ・リンク(英: Biomedical entity Linking、BEL)は、知識ベースに言及するエンティティの基盤となるタスクである。
生命科学文学における情報抽出パイプラインにおいて重要な役割を担っている。
そこで本研究では, バイオメディカルテキストマイニングのための既存のベンチマークが欠落しているため, 異なる実験装置を用いて, 論文数に基づいて比較を行った。
さらに、ニューラルシステムは、主に広範囲にわたる知識ベースUMLSにリンクされたインスタンスでテストされ、そのパフォーマンスは、例えば遺伝子や変異など、より専門的なものに委ねられている。
そこで我々は, バイオメディカルエンティティリンクベンチマークであるBELBを開発し, 7つの知識ベースにリンクした11のコーパスに統一されたフォーマットでアクセスし, 遺伝子, 疾患, 化学, 種, 細胞株, 変異の6つのエンティティタイプにまたがった。
BELBは、再現可能な実験のための標準化されたテストベッドを提供する複数のコーパス上でのBELシステムの前処理オーバーヘッドを大幅に削減する。
BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用する3つのニューラルアプローチを広範囲に評価する。
以上の結果から,ニューラルアプローチがエンティティタイプ間で一貫して機能しないことを示す混合画像が明らかとなり,エンティティ非依存モデルへのさらなる研究の必要性が浮き彫りになった。
関連論文リスト
- Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Biomedical Entity Linking as Multiple Choice Question Answering [48.74212158495695]
本稿では,バイオメディカルエンティティリンクを複数問合せ回答として扱う新モデルであるBioELQAを提案する。
まず、高速検索器を用いて候補エンティティを取得し、生成器に参照と候補エンティティを共同で提示し、選択したエンティティに関連付けられた予測シンボルを出力する。
長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、ジェネレータの検索インスタンスで入力する。
論文 参考訳(メタデータ) (2024-02-23T08:40:38Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - A Lightweight Neural Model for Biomedical Entity Linking [1.8047694351309205]
本論文では,生物医学的実体連携のための軽量ニューラル手法を提案する。
本手法では,アライメント層とアライメント機構を用いて参照とエンティティ名の違いをキャプチャする。
私達のモデルは標準的な評価のベンチマークの前の仕事と競争です。
論文 参考訳(メタデータ) (2020-12-16T10:34:37Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。