論文の概要: Unbiased organism-agnostic and highly sensitive signal peptide predictor
with deep protein language model
- arxiv url: http://arxiv.org/abs/2312.08987v1
- Date: Thu, 14 Dec 2023 14:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:52:13.986431
- Title: Unbiased organism-agnostic and highly sensitive signal peptide predictor
with deep protein language model
- Title(参考訳): 深層タンパク質言語モデルを用いた生体非依存的高感度シグナルペプチド予測
- Authors: Junbo Shen, Qinze Yu, Shenyang Chen, Qingxiong Tan, Jingcheng Li, Yu
Li
- Abstract要約: シグナルペプチド(Signal peptide、SP)は、タンパク質のN末端に位置する短いペプチドである。
本稿では,信号ペプチド分類と切断部位予測深層学習法であるunbiased Organism-Agnostic Signal peptide Network (USPNet)を提案する。
本稿では,データ不均衡問題に対処するためにラベル分布を考慮したマージン損失を適用し,タンパク質の進化情報を用いて表現を豊かにする手法を提案する。
- 参考スコア(独自算出の注目度): 12.37352652557512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Signal peptide (SP) is a short peptide located in the N-terminus of proteins.
It is essential to target and transfer transmembrane and secreted proteins to
correct positions. Compared with traditional experimental methods to identify
signal peptides, computational methods are faster and more efficient, which are
more practical for analyzing thousands or even millions of protein sequences,
especially for metagenomic data. Here we present Unbiased Organism-agnostic
Signal Peptide Network (USPNet), a signal peptide classification and cleavage
site prediction deep learning method that takes advantage of protein language
models. We propose to apply label distribution-aware margin loss to handle data
imbalance problems and use evolutionary information of protein to enrich
representation and overcome species information dependence.
- Abstract(参考訳): シグナルペプチド(Signal peptide、SP)は、タンパク質のN末端に位置する短いペプチドである。
トランス膜と分泌タンパク質を標的とし、正しい位置に移すことが不可欠である。
シグナルペプチドを同定する従来の実験手法と比較すると、計算手法はより高速で効率的であり、特にメッサージノミクスデータにおいて数千から数百万のタンパク質配列を解析するのにより実用的なものである。
本稿では,タンパク質言語モデルを利用した信号ペプチド分類および切断部位予測深層学習手法であるunbiased Organism-Agnostic Signal Peptide Network (USPNet)を提案する。
本研究では,データ不均衡問題に対処するためにラベル分布認識マージン損失を応用し,タンパク質の進化的情報を用いて,種情報依存を克服する手法を提案する。
関連論文リスト
- ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction [27.212743275697825]
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
論文 参考訳(メタデータ) (2021-12-01T08:31:01Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。