論文の概要: CU-UD: text-mining drug and chemical-protein interactions with ensembles
of BERT-based models
- arxiv url: http://arxiv.org/abs/2112.03004v1
- Date: Thu, 11 Nov 2021 13:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 19:22:02.045085
- Title: CU-UD: text-mining drug and chemical-protein interactions with ensembles
of BERT-based models
- Title(参考訳): CU-UD:BERTモデルを用いたテキストマイニング薬とケミカル-タンパク質相互作用
- Authors: Mehmet Efruz Karabulut, K. Vijay-Shanker, Yifan Peng
- Abstract要約: BioCreative VII track 1 DrugProt taskは、PubMedの抽象化における化学物質/ドラッグと遺伝子/タンパク質の関係を自動的に検出できるシステムの開発と評価を促進することを目的としている。
本稿では,複数のBERT言語モデルを含むアンサンブルシステムについて述べる。
F1スコア0.7739の精度で0.7708、リコール0.7770を取得し、BERTに基づく言語モデルのアンサンブルを用いて、化学物質とタンパク質の関係を自動的に検出する効果を実証した。
- 参考スコア(独自算出の注目度): 12.08949974675794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the relations between chemicals and proteins is an important text
mining task. BioCreative VII track 1 DrugProt task aims to promote the
development and evaluation of systems that can automatically detect relations
between chemical compounds/drugs and genes/proteins in PubMed abstracts. In
this paper, we describe our submission, which is an ensemble system, including
multiple BERT-based language models. We combine the outputs of individual
models using majority voting and multilayer perceptron. Our system obtained
0.7708 in precision and 0.7770 in recall, for an F1 score of 0.7739,
demonstrating the effectiveness of using ensembles of BERT-based language
models for automatically detecting relations between chemicals and proteins.
Our code is available at https://github.com/bionlplab/drugprot_bcvii.
- Abstract(参考訳): 化学物質とタンパク質の関係を特定することは重要なテキストマイニング作業である。
BioCreative VII track 1 DrugProt taskは、PubMedの抽象化における化学物質/ドラッグと遺伝子/タンパク質の関係を自動的に検出できるシステムの開発と評価を促進することを目的としている。
本稿では,複数のBERT言語モデルを含むアンサンブルシステムである提案文について述べる。
多数決と多層パーセプトロンを用いて個々のモデルの出力を合成する。
精度0.7708,リコール0.7770,f1スコア0.7739を算出し,化学物質とタンパク質の関係を自動検出するbert言語モデルのアンサンブルの有効性を示した。
私たちのコードはhttps://github.com/bionlplab/drugprot_bcviiで利用可能です。
関連論文リスト
- BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - MOTIVE: A Drug-Target Interaction Graph For Inductive Link Prediction [0.29998889086656577]
本稿では,11,000遺伝子と3,600化合物のセルペイント機能を有する形態的cOmpoundターゲット相互作用グラフであるMOTIVEについて紹介する。
我々は、現実的なユースケース下で厳密な評価を可能にするために、ランダムでコールドソース(新薬)とコールドターゲット(新遺伝子)データを分割する。
ベンチマークの結果,Cell Painting機能を用いたグラフニューラルネットワークは,グラフ構造のみから学習したニューラルネットワークよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-06-12T21:18:14Z) - Learning to Denoise Biomedical Knowledge Graph for Robust Molecular Interaction Prediction [50.7901190642594]
分子間相互作用予測のためのバイオKDN (Biomedical Knowledge Graph Denoising Network) を提案する。
BioKDNは、ノイズの多いリンクを学習可能な方法で識別することで、局所的な部分グラフの信頼性の高い構造を洗練する。
ターゲットの相互作用に関する関係を円滑にすることで、一貫性とロバストなセマンティクスを維持する。
論文 参考訳(メタデータ) (2023-12-09T07:08:00Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT
and T5 Based Models [3.7462395049372894]
バイオクリーティブVIIチャレンジのトラック1では、参加者が薬物と化学薬品とタンパク質の相互作用を識別するよう求められている。
本稿では,BERTに基づく文分類手法と,T5モデルを用いたより新しいテキスト・テキスト分類手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:14:06Z) - Does constituency analysis enhance domain-specific pre-trained BERT
models for relation extraction? [0.0]
BioCreative VII の DrugProt トラックは、関係抽出システムの開発と評価のための手動注釈付きコーパスを提供する。
本稿では,提案提案に使用したアンサンブルシステムについて述べる。このシステムでは,細調整されたbioBERT,sciBERT,const-bioBERTモデルを多数決で予測する。
論文 参考訳(メタデータ) (2021-11-25T10:27:10Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。