論文の概要: BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets
- arxiv url: http://arxiv.org/abs/2306.11189v1
- Date: Mon, 19 Jun 2023 22:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:10:34.484440
- Title: BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets
- Title(参考訳): BioREx: 異種データセットの活用による医療関係抽出の改善
- Authors: Po-Ting Lai, Chih-Hsuan Wei, Ling Luo, Qingyu Chen, Zhiyong Lu
- Abstract要約: 生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 7.7587371896752595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical relation extraction (RE) is the task of automatically identifying
and characterizing relations between biomedical concepts from free text. RE is
a central task in biomedical natural language processing (NLP) research and
plays a critical role in many downstream applications, such as literature-based
discovery and knowledge graph construction. State-of-the-art methods were used
primarily to train machine learning models on individual RE datasets, such as
protein-protein interaction and chemical-induced disease relation. Manual
dataset annotation, however, is highly expensive and time-consuming, as it
requires domain knowledge. Existing RE datasets are usually domain-specific or
small, which limits the development of generalized and high-performing RE
models. In this work, we present a novel framework for systematically
addressing the data heterogeneity of individual datasets and combining them
into a large dataset. Based on the framework and dataset, we report on BioREx,
a data-centric approach for extracting relations. Our evaluation shows that
BioREx achieves significantly higher performance than the benchmark system
trained on the individual dataset, setting a new SOTA from 74.4% to 79.6% in
F-1 measure on the recently released BioRED corpus. We further demonstrate that
the combined dataset can improve performance for five different RE tasks. In
addition, we show that on average BioREx compares favorably to current
best-performing methods such as transfer learning and multi-task learning.
Finally, we demonstrate BioREx's robustness and generalizability in two
independent RE tasks not previously seen in training data: drug-drug N-ary
combination and document-level gene-disease RE. The integrated dataset and
optimized method have been packaged as a stand-alone tool available at
https://github.com/ncbi/BioREx.
- Abstract(参考訳): バイオメディカル・リレーションシップ抽出(RE)は、自由テキストからバイオメディカル・コンセプト間の関係を自動的に識別し、特徴付けるタスクである。
REは生物医学自然言語処理(NLP)研究の中心的課題であり、文献に基づく発見や知識グラフ構築など、下流の多くの応用において重要な役割を果たしている。
state-of-the-art法は主に、タンパク質とタンパク質の相互作用や化学的病因関係など、個々のreデータセットの機械学習モデルをトレーニングするために使用された。
しかし、手動データセットアノテーションはドメイン知識を必要とするため、非常に高価で時間を要する。
既存のREデータセットは通常ドメイン固有または小さいもので、一般化された高パフォーマンスREモデルの開発を制限する。
本稿では,個々のデータセットのデータの不均一性を体系的に解決し,それらを大きなデータセットに結合する新しい枠組みを提案する。
このフレームワークとデータセットに基づいて,関係抽出のためのデータ中心型アプローチであるBioRExについて報告する。
評価の結果、BioRExは個々のデータセットでトレーニングされたベンチマークシステムよりも大幅に高い性能を示し、最近リリースされたBioREDコーパスのF-1測定値の74.4%から79.6%に新しいSOTAを設定した。
さらに,組み合わせたデータセットが5つの異なるreタスクのパフォーマンスを向上させることを実証する。
さらに、平均的BioRExは、転送学習やマルチタスク学習といった現在の最高のパフォーマンス手法と比較して好適であることを示す。
最後に、BioRExの堅牢性と一般化性について、これまでトレーニングデータになかった2つの独立したREタスク、すなわちドラッグドラッグN-aryと文書レベルのREで示す。
統合データセットと最適化されたメソッドは、https://github.com/ncbi/BioRExで利用可能なスタンドアロンツールとしてパッケージ化された。
関連論文リスト
- Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - BioBERT-based Deep Learning and Merged ChemProt-DrugProt for Enhanced Biomedical Relation Extraction [2.524192238862961]
我々のアプローチは、新しいマージ戦略を用いて、ChemProtとD薬局のデータセットを統合する。
本研究は, バイオメディカル研究と臨床実習における自動情報抽出の可能性を強調した。
論文 参考訳(メタデータ) (2024-05-28T21:34:01Z) - Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Relation Extraction in underexplored biomedical domains: A
diversity-optimised sampling and synthetic data generation approach [0.0]
ラベル付きデータの空間性は関係抽出モデルの開発に障害となる。
我々は、最初のキュレートされた評価データセットを作成し、LOTUSデータベースから文献項目を抽出し、トレーニングセットを構築する。
我々は,オープンな大規模言語モデルを用いた生成タスクと数ショット学習として,標準微調整の性能を評価する。
論文 参考訳(メタデータ) (2023-11-10T19:36:00Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。