論文の概要: BioRED: A Comprehensive Biomedical Relation Extraction Dataset
- arxiv url: http://arxiv.org/abs/2204.04263v1
- Date: Fri, 8 Apr 2022 19:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 09:55:01.266343
- Title: BioRED: A Comprehensive Biomedical Relation Extraction Dataset
- Title(参考訳): BioRED: 総合的な医療関係抽出データセット
- Authors: Ling Luo, Po-Ting Lai, Chih-Hsuan Wei, Cecilia N Arighi, Zhiyong Lu
- Abstract要約: 我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 6.915371362219944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated relation extraction (RE) from biomedical literature is critical for
many downstream text mining applications in both research and real-world
settings. However, most existing benchmarking datasets for bio-medical RE only
focus on relations of a single type (e.g., protein-protein interactions) at the
sentence level, greatly limiting the development of RE systems in biomedicine.
In this work, we first review commonly used named entity recognition (NER) and
RE datasets. Then we present BioRED, a first-of-its-kind biomedical RE corpus
with multiple entity types (e.g., gene/protein, disease, chemical) and relation
pairs (e.g., gene-disease; chemical-chemical), on a set of 600 PubMed articles.
Further, we label each relation as describing either a novel finding or
previously known background knowledge, enabling automated algorithms to
differentiate between novel and background information. We assess the utility
of BioRED by benchmarking several existing state-of-the-art methods, including
BERT-based models, on the NER and RE tasks. Our results show that while
existing approaches can reach high performance on the NER task (F-score of
89.3%), there is much room for improvement for the RE task, especially when
extracting novel relations (F-score of 47.7%). Our experiments also demonstrate
that such a comprehensive dataset can successfully facilitate the development
of more accurate, efficient, and robust RE systems for biomedicine.
- Abstract(参考訳): 生物医学文献からの自動関係抽出(RE)は、研究と実世界の双方で多くの下流テキストマイニングアプリケーションにとって重要である。
しかし、既存のバイオメディカルREのベンチマークデータセットのほとんどは、文レベルでの単一のタイプ(タンパク質とタンパク質の相互作用など)の関係のみに焦点を当てており、バイオメディシンにおけるREシステムの開発を著しく制限している。
本稿では、まず、名前付きエンティティ認識(ner)と再データセットをレビューする。
次に,600個のPubMed論文に,複数の実体型(遺伝子・タンパク質・疾患・化学物質など)と関連ペア(遺伝子・疾患・化学物質など)を有する第一種バイオメディカルREコーパスであるBioREDについて紹介する。
さらに,それぞれの関係を,新規発見と既知の背景知識のいずれかを記述し,新たな情報と背景情報とを自動アルゴリズムで区別できるようにする。
NER および RE タスク上で,BERT モデルを含む既存の最先端手法をベンチマークすることで,BioRED の有用性を評価する。
以上の結果から,既存の手法はNERタスクにおいて高い性能を達成することができる(Fスコア89.3%)が,特に新規な関係を抽出する場合(Fスコア47.7%)にはREタスクには改善の余地が十分にあることがわかった。
また,このような包括的データセットは,より正確で効率的でロバストな生物医療用reシステムの開発を効果的に促進できることを実証した。
関連論文リスト
- Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - BioBERT-based Deep Learning and Merged ChemProt-DrugProt for Enhanced Biomedical Relation Extraction [2.524192238862961]
我々のアプローチは、新しいマージ戦略を用いて、ChemProtとD薬局のデータセットを統合する。
本研究は, バイオメディカル研究と臨床実習における自動情報抽出の可能性を強調した。
論文 参考訳(メタデータ) (2024-05-28T21:34:01Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - End-to-End Models for Chemical-Protein Interaction Extraction: Better
Tokenization and Span-Based Pipeline Strategies [1.782718930156674]
我々は、ChemProtデータセット上で新しい最先端のE2EREパフォーマンスを生成するために、スパンベースのパイプラインアプローチを採用している。
提案手法は,E2EREにおいて,スパンベースアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2023-04-03T20:20:22Z) - AIONER: All-in-one scheme-based biomedical named entity recognition
using deep learning [7.427654811697884]
AIONERは最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールである。
AIONERは効果的で堅牢で、マルチタスク学習のような最先端のアプローチと好適に比較できる。
論文 参考訳(メタデータ) (2022-11-30T12:35:00Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - BioIE: Biomedical Information Extraction with Multi-head Attention
Enhanced Graph Convolutional Network [9.227487525657901]
本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。
本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。
論文 参考訳(メタデータ) (2021-10-26T13:19:28Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。