論文の概要: AIONER: All-in-one scheme-based biomedical named entity recognition
using deep learning
- arxiv url: http://arxiv.org/abs/2211.16944v1
- Date: Wed, 30 Nov 2022 12:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:37:11.419057
- Title: AIONER: All-in-one scheme-based biomedical named entity recognition
using deep learning
- Title(参考訳): aioner: ディープラーニングを用いた生体医学的エンティティ認識
- Authors: Ling Luo, Chih-Hsuan Wei, Po-Ting Lai, Robert Leaman, Qingyu Chen and
Zhiyong Lu
- Abstract要約: バイオメディカルネームエンティティ認識(BioNER)は、自然言語テキストで自動的にバイオメディカルエンティティを認識しようとする。
AIONERは最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールである。
AIONERは有効で堅牢であり、マルチタスク学習のような最先端のアプローチと好適に比較できることを示す。
- 参考スコア(独自算出の注目度): 7.427654811697884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical named entity recognition (BioNER) seeks to automatically recognize
biomedical entities in natural language text, serving as a necessary foundation
for downstream text mining tasks and applications such as information
extraction and question answering. Manually labeling training data for the
BioNER task is costly, however, due to the significant domain expertise
required for accurate annotation. The resulting data scarcity causes current
BioNER approaches to be prone to overfitting, to suffer from limited
generalizability, and to address a single entity type at a time (e.g., gene or
disease). We therefore propose a novel all-in-one (AIO) scheme that uses
external data from existing annotated resources to improve generalization. We
further present AIONER, a general-purpose BioNER tool based on cutting-edge
deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark
tasks and show that AIONER is effective, robust, and compares favorably to
other state-of-the-art approaches such as multi-task learning. We further
demonstrate the practical utility of AIONER in three independent tasks to
recognize entity types not previously seen in training data, as well as the
advantages of AIONER over existing methods for processing biomedical text at a
large scale (e.g., the entire PubMed data).
- Abstract(参考訳): バイオメディカル名付きエンティティ認識(BioNER)は、自然言語テキストにおけるバイオメディカルエンティティを自動的に認識し、下流のテキストマイニングタスクや情報抽出や質問応答などのアプリケーションに必要な基盤となる。
BioNERタスクのトレーニングデータを手動でラベル付けするのはコストがかかるが、正確なアノテーションに必要なドメインの専門知識があるためである。
結果として得られたデータ不足により、現在のBioNERアプローチは過度に適合し、限定的な一般化性に悩まされ、一度に一つのエンティティタイプ(遺伝子や病気など)に対処する傾向にある。
そこで我々は,既存のアノテートリソースの外部データを用いて一般化を改善する新しいオールインワン(AIO)方式を提案する。
さらに,最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールであるAIONERを紹介する。
AIONERを14のBioNERベンチマークタスクで評価し、AIONERが効果的で堅牢であることを示し、マルチタスク学習などの他の最先端手法と比較した。
さらに,既存のバイオメディカルテキストを大規模に処理する手法(PubMedデータ全体)に対して,AIONERの優位性に加えて,トレーニングデータにこれまで見られないエンティティタイプを認識するための3つの独立したタスクにおけるAIONERの実用性を示す。
関連論文リスト
- BioMNER: A Dataset for Biomedical Method Entity Recognition [25.403593761614424]
本稿では,生物医学的手法による実体認識のための新しいデータセットを提案する。
我々は、人間のアノテーションを支援するために、自動的なBioMethodエンティティ認識と情報検索システムを採用している。
実験の結果,言語モデルのパラメータ数が大きくなると,実体抽出パターンの有効同化が著しく阻害されることが判明した。
論文 参考訳(メタデータ) (2024-06-28T16:34:24Z) - Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER [52.79573512427998]
低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを紹介する。
BioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解決するために訓練されている。
5つのベンチマークBioNERデータセットに対するBioAugの有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T02:04:38Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。