論文の概要: Large-scale protein-protein post-translational modification extraction
with distant supervision and confidence calibrated BioBERT
- arxiv url: http://arxiv.org/abs/2201.02229v1
- Date: Thu, 6 Jan 2022 19:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 22:56:16.360847
- Title: Large-scale protein-protein post-translational modification extraction
with distant supervision and confidence calibrated BioBERT
- Title(参考訳): 大規模タンパク質-タンパク質-翻訳後修飾抽出法
- Authors: Aparna Elangovan, Yuan Li, Douglas E. V. Pires, Melissa J. Davis and
Karin Verspoor
- Abstract要約: PPI-BioBERT-x10と呼ばれるBioBERTモデルのアンサンブルをトレーニングし、信頼性校正を改善する。
PPI-BioBERT-x10を1千万のPubMed抽象体で評価し,PTM-PPI予測を1.6万(546507個のPTM-PPI三重項),フィルタ5700(4584個のユニークな)高信頼予測を抽出した。
- 参考スコア(独自算出の注目度): 6.1347671366134895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein-protein interactions (PPIs) are critical to normal cellular function
and are related to many disease pathways. However, only 4% of PPIs are
annotated with PTMs in biological knowledge databases such as IntAct, mainly
performed through manual curation, which is neither time nor cost-effective. We
use the IntAct PPI database to create a distant supervised dataset annotated
with interacting protein pairs, their corresponding PTM type, and associated
abstracts from the PubMed database. We train an ensemble of BioBERT models -
dubbed PPI-BioBERT-x10 to improve confidence calibration. We extend the use of
ensemble average confidence approach with confidence variation to counteract
the effects of class imbalance to extract high confidence predictions. The
PPI-BioBERT-x10 model evaluated on the test set resulted in a modest F1-micro
41.3 (P =5 8.1, R = 32.1). However, by combining high confidence and low
variation to identify high quality predictions, tuning the predictions for
precision, we retained 19% of the test predictions with 100% precision. We
evaluated PPI-BioBERT-x10 on 18 million PubMed abstracts and extracted 1.6
million (546507 unique PTM-PPI triplets) PTM-PPI predictions, and filter ~ 5700
(4584 unique) high confidence predictions. Of the 5700, human evaluation on a
small randomly sampled subset shows that the precision drops to 33.7% despite
confidence calibration and highlights the challenges of generalisability beyond
the test set even with confidence calibration. We circumvent the problem by
only including predictions associated with multiple papers, improving the
precision to 58.8%. In this work, we highlight the benefits and challenges of
deep learning-based text mining in practice, and the need for increased
emphasis on confidence calibration to facilitate human curation efforts.
- Abstract(参考訳): タンパク質とタンパク質の相互作用(PPI)は正常な細胞機能に重要であり、多くの疾患経路と関連している。
しかし、ppisの4%がptmを無傷の生物学的知識データベースにアノテートしており、主に手動のキュレーションによって行われているが、時間や費用効果はない。
IntAct PPIデータベースを用いて、相互作用するタンパク質対、対応するPTMタイプ、およびPubMedデータベースからの関連する抽象化を付加した遠隔教師付きデータセットを作成する。
信頼性校正を改善するため,BioBERTモデルを用いたPPI-BioBERT-x10のアンサンブルを訓練する。
本稿では,信頼度変化を伴うアンサンブル平均信頼度アプローチの利用を拡張し,クラス不均衡の効果を相殺して高い信頼度を推定する。
テストセットで評価されたPPI-BioBERT-x10モデルは、控えめなF1-micro 41.3(P =5.1、R = 32.1)となった。
しかし、高い信頼性と低変動を組み合わせて高品質な予測を識別し、精度の予測を調整することで、100%精度でテスト予測の19%を維持した。
PPI-BioBERT-x10を1千万のPubMed抽象体上で評価し,PTM-PPI予測から1.6万(546507個)のPTM-PPI予測とフィルタ5700(4584個)の高信頼予測を抽出した。
5700のうち、ランダムにサンプリングされた小さなサブセットに対する人間による評価は、信頼性校正にもかかわらず精度が33.7%に低下し、信頼性校正においてもテストセットを超えて一般可能性の課題が強調された。
複数の論文に関連付けられた予測を含まないことで問題を回避し,58.8%の精度で精度を向上する。
本研究は,深層学習によるテキストマイニングの実践におけるメリットと課題と,人間のキュレーション活動を促進するための信頼性校正の強調の必要性を強調した。
関連論文リスト
- The Probabilistic Tsetlin Machine: A Novel Approach to Uncertainty Quantification [1.0499611180329802]
本稿では,不確実性定量化のための堅牢で信頼性の高い,解釈可能なアプローチを実現することを目的とした,確率的テセリンマシン(PTM)フレームワークを提案する。
オリジナルのTMとは異なり、PTMは全ての節にわたって各Tsetlin Automaton(TA)の各状態に留まる確率を学習する。
推論中、TAは学習された確率分布に基づいて状態のサンプリングによって行動を決定する。
論文 参考訳(メタデータ) (2024-10-23T13:20:42Z) - PPINtonus: Early Detection of Parkinson's Disease Using Deep-Learning Tonal Analysis [0.0]
PPINtonusはパーキンソン病の早期発見システムである。
深層学習音素解析を用いて、神経学的検査の代替手段を提供する。
論文 参考訳(メタデータ) (2024-06-03T01:07:42Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Evaluation of GPT and BERT-based models on identifying protein-protein
interactions in biomedical text [1.3923237289777164]
生成事前学習型変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習型言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。
複数GPTモデルとBERTモデルのPPI識別性能を、3つの手作業による金標準コーパスを用いて評価した。
論文 参考訳(メタデータ) (2023-03-30T22:06:10Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - A Supervised Machine Learning Approach for Sequence Based
Protein-protein Interaction (PPI) Prediction [4.916874464940376]
計算タンパク質間相互作用(PPI)予測技術は、時間、コスト、偽陽性相互作用の低減に大きく貢献する。
提案したソリューションをSeqPIPコンペティションの結果とともに紹介した。
論文 参考訳(メタデータ) (2022-03-23T18:27:25Z) - Improving the robustness and accuracy of biomedical language models
through adversarial training [7.064032374579076]
ディープトランスフォーマーニューラルネットワークモデルは、生物医学領域におけるインテリジェントテキスト処理システムの予測精度を改善した。
ニューラルNLPモデルは、テキストの意味と理解性を保持するが、NLPシステムに誤った判断を強要する入力に対する小さな変更など、敵対的なサンプルによって簡単に騙される。
これにより、バイオメディカルNLPシステムのセキュリティと信頼性に対する深刻な懸念が生じる。
論文 参考訳(メタデータ) (2021-11-16T14:58:05Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。