論文の概要: Assigning function to protein-protein interactions: a weakly supervised
BioBERT based approach using PubMed abstracts
- arxiv url: http://arxiv.org/abs/2008.08727v3
- Date: Thu, 6 Jan 2022 20:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:05:01.652468
- Title: Assigning function to protein-protein interactions: a weakly supervised
BioBERT based approach using PubMed abstracts
- Title(参考訳): タンパク質とタンパク質の相互作用へのアサイン機能:PubMed抽象体を用いた弱制御BioBERTによるアプローチ
- Authors: Aparna Elangovan, Melissa Davis and Karin Verspoor
- Abstract要約: タンパク質とタンパク質の相互作用(PPI)は正常細胞と疾患細胞のタンパク質の機能に重要である。
タンパク質相互作用データベースで取得されるPPIのごく一部に、機能アノテーションがある。
本稿では,PubMed の要約に記述された関係を抽出することで,PPIの関数型をラベル付けすることを目的とする。
- 参考スコア(独自算出の注目度): 2.208694022993555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivation: Protein-protein interactions (PPI) are critical to the function
of proteins in both normal and diseased cells, and many critical protein
functions are mediated by interactions.Knowledge of the nature of these
interactions is important for the construction of networks to analyse
biological data. However, only a small percentage of PPIs captured in protein
interaction databases have annotations of function available, e.g. only 4% of
PPI are functionally annotated in the IntAct database. Here, we aim to label
the function type of PPIs by extracting relationships described in PubMed
abstracts.
Method: We create a weakly supervised dataset from the IntAct PPI database
containing interacting protein pairs with annotated function and associated
abstracts from the PubMed database. We apply a state-of-the-art deep learning
technique for biomedical natural language processing tasks, BioBERT, to build a
model - dubbed PPI-BioBERT - for identifying the function of PPIs. In order to
extract high quality PPI functions at large scale, we use an ensemble of
PPI-BioBERT models to improve uncertainty estimation and apply an interaction
type-specific threshold to counteract the effects of variations in the number
of training samples per interaction type.
Results: We scan 18 million PubMed abstracts to automatically identify 3253
new typed PPIs, including phosphorylation and acetylation interactions, with an
overall precision of 46% (87% for acetylation) based on a human-reviewed
sample. This work demonstrates that analysis of biomedical abstracts for PPI
function extraction is a feasible approach to substantially increasing the
number of interactions annotated with function captured in online databases.
- Abstract(参考訳): モチベーション:タンパク質-タンパク質相互作用(ppi)は正常細胞と疾患細胞の両方においてタンパク質の機能に不可欠であり、多くの重要なタンパク質機能には相互作用が関与している。
しかし、タンパク質相互作用データベースで取得されるPPIのごく一部に機能アノテーションがあり、例えば、IntActデータベースではPPIのわずか4%が機能アノテーションである。
本稿では,PubMed の要約に記述された関係を抽出することで,PPIの関数型をラベル付けすることを目的とする。
方法: IntAct PPIデータベースからアノテーション付きタンパク質対と関連する抽象化を含む弱い教師付きデータセットをPubMedデータベースから作成する。
バイオメディカル自然言語処理タスクBioBERTに最先端のディープラーニング技術を適用し,PPIの機能の同定にPPI-BioBERTと呼ばれるモデルを構築した。
高品質なPPI関数を大規模に抽出するために,不確実性評価を改善するためにPPI-BioBERTモデルのアンサンブルを用い,インタラクションタイプ固有のしきい値を適用し,インタラクションタイプ毎のトレーニングサンプル数の変動の影響を防止した。
結果: PubMedの抽象物質1800万件をスキャンし, リン酸化およびアセチル化相互作用を含む3253種の新規なPPIを自動同定し, 総合的精度は46% (87%) であった。
本研究は,PPI関数抽出のためのバイオメディカル抽象化の解析が,オンラインデータベースで取得した関数に注釈付けされたインタラクションの数を大幅に増やすための有効なアプローチであることを示す。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - Effective Protein-Protein Interaction Exploration with PPIretrieval [46.07027715907749]
PPIretrievalはタンパク質とタンパク質の相互作用を探索する最初の深層学習モデルである。
PPIretrievalは、埋め込み空間における潜在的なPPIを探し、タンパク質表面の豊富な幾何学的および化学的情報を収集する。
論文 参考訳(メタデータ) (2024-02-06T03:57:06Z) - Learning to Denoise Biomedical Knowledge Graph for Robust Molecular Interaction Prediction [50.7901190642594]
分子間相互作用予測のためのバイオKDN (Biomedical Knowledge Graph Denoising Network) を提案する。
BioKDNは、ノイズの多いリンクを学習可能な方法で識別することで、局所的な部分グラフの信頼性の高い構造を洗練する。
ターゲットの相互作用に関する関係を円滑にすることで、一貫性とロバストなセマンティクスを維持する。
論文 参考訳(メタデータ) (2023-12-09T07:08:00Z) - Evaluation of GPT and BERT-based models on identifying protein-protein
interactions in biomedical text [1.3923237289777164]
生成事前学習型変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習型言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。
複数GPTモデルとBERTモデルのPPI識別性能を、3つの手作業による金標準コーパスを用いて評価した。
論文 参考訳(メタデータ) (2023-03-30T22:06:10Z) - A Supervised Machine Learning Approach for Sequence Based
Protein-protein Interaction (PPI) Prediction [4.916874464940376]
計算タンパク質間相互作用(PPI)予測技術は、時間、コスト、偽陽性相互作用の低減に大きく貢献する。
提案したソリューションをSeqPIPコンペティションの結果とともに紹介した。
論文 参考訳(メタデータ) (2022-03-23T18:27:25Z) - Learning Unknown from Correlations: Graph Neural Network for
Inter-novel-protein Interaction Prediction [7.860159889216291]
既存のメソッドは、見えないデータセットでテストすると、パフォーマンスが大幅に低下します。
本稿では,タンパク質間相互作用予測のためのグラフニューラルネットワーク(GNN-PPI)を提案する。
論文 参考訳(メタデータ) (2021-05-14T08:42:55Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Biomedical Information Extraction for Disease Gene Prioritization [0.34998703934432673]
本稿では,テキストから生物関係を抽出するバイオメディカル情報抽出パイプラインを提案する。
本研究では,タンパク質-タンパク質相互作用(PPI)を抽出し,それらの抽出をバイオメディカル知識グラフに拡張するために,数千万のPubMed抽象体に適用する。
確立された構造化されたソースからのPPIをすでに含んでいるにもかかわらず、IEベースのグラフへの抽出を拡大することで、新しい疾患遺伝子関連を予測し、hit@30の20%の相対的な増加を予測できることが示されている。
論文 参考訳(メタデータ) (2020-11-10T15:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。