論文の概要: pLMFPPred: a novel approach for accurate prediction of functional
peptides integrating embedding from pre-trained protein language model and
imbalanced learning
- arxiv url: http://arxiv.org/abs/2309.14404v1
- Date: Mon, 25 Sep 2023 17:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 16:39:30.006490
- Title: pLMFPPred: a novel approach for accurate prediction of functional
peptides integrating embedding from pre-trained protein language model and
imbalanced learning
- Title(参考訳): pLMFPPred : 事前学習されたタンパク質言語モデルと不均衡学習を組み込んだ機能性ペプチドの正確な予測法
- Authors: Zebin Ma, Yonglin Zou, Xiaobin Huang, Wenjin Yan, Hao Xu, Jiexin Yang,
Ying Zhang, Jinqi Huang
- Abstract要約: pLPredは、機能性ペプチドを予測し、有毒ペプチドを同定するためのツールである。
検証された独立テストセットでは、pLPredは精度、曲線下エリア - 受信者動作特性、F1スコア値はそれぞれ0.974、0.99、0.974が達成された。
- 参考スコア(独自算出の注目度): 7.5449239162950965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Functional peptides have the potential to treat a variety of diseases. Their
good therapeutic efficacy and low toxicity make them ideal therapeutic agents.
Artificial intelligence-based computational strategies can help quickly
identify new functional peptides from collections of protein sequences and
discover their different functions.Using protein language model-based
embeddings (ESM-2), we developed a tool called pLMFPPred (Protein Language
Model-based Functional Peptide Predictor) for predicting functional peptides
and identifying toxic peptides. We also introduced SMOTE-TOMEK data synthesis
sampling and Shapley value-based feature selection techniques to relieve data
imbalance issues and reduce computational costs. On a validated independent
test set, pLMFPPred achieved accuracy, Area under the curve - Receiver
Operating Characteristics, and F1-Score values of 0.974, 0.99, and 0.974,
respectively. Comparative experiments show that pLMFPPred outperforms current
methods for predicting functional peptides.The experimental results suggest
that the proposed method (pLMFPPred) can provide better performance in terms of
Accuracy, Area under the curve - Receiver Operating Characteristics, and
F1-Score than existing methods. pLMFPPred has achieved good performance in
predicting functional peptides and represents a new computational method for
predicting functional peptides.
- Abstract(参考訳): 機能性ペプチドは様々な疾患を治療する可能性がある。
優れた治療効果と低い毒性は、理想的な治療剤となる。
人工知能に基づく計算戦略は,タンパク質配列の集合から新たな機能ペプチドを素早く同定し,それらの機能を見出すのに役立つ。タンパク質言語モデルに基づく埋め込み (ESM-2) を用いて,機能ペプチドの予測と毒性ペプチドの同定のための pLMFPPred (Protein Language Model-based Functional Peptide Predictor) と呼ばれるツールを開発した。
また,smote-tomekデータ合成サンプリングとshapley値に基づく特徴選択手法を導入し,データの不均衡を緩和し,計算コストを削減する。
検証された独立テストセットでは、plmfppredは精度、曲線下領域、受信機動作特性、f1-score値それぞれ0.974、0.999、0.974を達成した。
比較実験により,pLMFPPredは機能ペプチドの予測における現在の手法よりも優れており,提案手法(pLMFPPred)は既存手法よりも精度,曲線下面積,F1スコアにおいて優れた性能が得られることが示された。
pLMFPPredは機能ペプチドの予測に優れており、機能ペプチドの予測のための新しい計算方法を示している。
関連論文リスト
- Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Fine-tuning Protein Language Models with Deep Mutational Scanning improves Variant Effect Prediction [3.2358123775807575]
タンパク質言語モデル(PLM)は、タンパク質コード変異体の機能的影響と臨床的意義を予測するための高性能でスケーラブルなツールとして登場した。
深部突然変異走査法(DMS)による可変効果の実験的マップを用いたPLMの性能向上のための新しい微調整手法を提案する。
これらの結果から,DMSは配列多様性の有望な源であり,多変量効果予測のためのPLMの性能向上のための教師付きトレーニングデータであることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T14:50:40Z) - ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。
ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。
タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文 参考訳(メタデータ) (2024-02-10T17:31:46Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Using Genetic Programming to Predict and Optimize Protein Function [65.25258357832584]
我々は,進化的手法に基づく遺伝的プログラミングツールPOETを提案し,方向性進化におけるスクリーニングと変異原性を高める。
概念実証として, 化学交換飽和移動機構によって検出されたMRIコントラストを生成するペプチドを用いる。
以上の結果から,POETのような計算モデリングツールは,従来よりも400%優れた機能性を持つペプチドを見つけるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T18:08:08Z) - Prediction of Hemolysis Tendency of Peptides using a Reliable Evaluation
Method [3.110575781525886]
あるペプチッドはペプチッドの低い代謝の安定性、高い毒性および高いhemolityをもたらすことができます。
従来のペプチドの毒性評価法は、時間と費用がかかる。
ペプチドの溶血傾向予測のための機械学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-12-11T16:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。