論文の概要: Improving PTM Site Prediction by Coupling of Multi-Granularity Structure
and Multi-Scale Sequence Representation
- arxiv url: http://arxiv.org/abs/2401.10211v1
- Date: Thu, 4 Jan 2024 20:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:17:47.776155
- Title: Improving PTM Site Prediction by Coupling of Multi-Granularity Structure
and Multi-Scale Sequence Representation
- Title(参考訳): マルチグラニュラリティ構造とマルチスケールシーケンス表現の結合によるPTMサイト予測の改善
- Authors: Zhengyi Li, Menglu Li, Lida Zhu, Wen Zhang
- Abstract要約: タンパク質翻訳後修飾(PTM)サイト予測はバイオインフォマティクスの基本的な課題である。
マルチグラニュラリティ構造とマルチスケールシーケンス表現の結合によるPTMサイト予測手法を提案する。
3つのデータセットに対する大規模な実験は、PTM-CMGMSが最先端の手法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 7.337067876477941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein post-translational modification (PTM) site prediction is a
fundamental task in bioinformatics. Several computational methods have been
developed to predict PTM sites. However, existing methods ignore the structure
information and merely utilize protein sequences. Furthermore, designing a more
fine-grained structure representation learning method is urgently needed as PTM
is a biological event that occurs at the atom granularity. In this paper, we
propose a PTM site prediction method by Coupling of Multi-Granularity structure
and Multi-Scale sequence representation, PTM-CMGMS for brevity. Specifically,
multigranularity structure-aware representation learning is designed to learn
neighborhood structure representations at the amino acid, atom, and whole
protein granularity from AlphaFold predicted structures, followed by utilizing
contrastive learning to optimize the structure representations.Additionally,
multi-scale sequence representation learning is used to extract context
sequence information, and motif generated by aligning all context sequences of
PTM sites assists the prediction. Extensive experiments on three datasets show
that PTM-CMGMS outperforms the state-of-the-art methods.
- Abstract(参考訳): タンパク質翻訳後修飾(PTM)サイト予測はバイオインフォマティクスの基本的な課題である。
PTMサイトを予測するためにいくつかの計算手法が開発されている。
しかし、既存の方法は構造情報を無視し、単にタンパク質配列を利用するだけである。
さらに、PTMは原子粒度で発生する生物学的事象であるため、より微細な構造表現学習法を設計する必要がある。
本稿では,マルチグラニュラリティ構造とマルチスケールシーケンス表現の結合によるPTMサイト予測手法,PTM-CMGMSを提案する。
Specifically, multigranularity structure-aware representation learning is designed to learn neighborhood structure representations at the amino acid, atom, and whole protein granularity from AlphaFold predicted structures, followed by utilizing contrastive learning to optimize the structure representations.Additionally, multi-scale sequence representation learning is used to extract context sequence information, and motif generated by aligning all context sequences of PTM sites assists the prediction.
3つのデータセットに対する大規模な実験は、PTM-CMGMSが最先端の手法よりも優れていることを示している。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - CPE-Pro: A Structure-Sensitive Deep Learning Method for Protein Representation and Origin Evaluation [7.161099050722313]
タンパク質構造評価用結晶対予測学習モデル(CPE-Pro)を開発した。
CPE-Proはタンパク質の構造情報を学習し、構造間の差異を捉え、4つのデータクラスの正確なトレーサビリティを実現する。
我々は Foldseek を用いてタンパク質構造を「構造配列」にエンコードし、タンパク質構造配列言語モデル SSLM を訓練した。
論文 参考訳(メタデータ) (2024-10-21T02:21:56Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Disentangling Structured Components: Towards Adaptive, Interpretable and
Scalable Time Series Forecasting [52.47493322446537]
本研究では,時空間パターンの各コンポーネントを個別にモデル化する適応的,解釈可能,スケーラブルな予測フレームワークを開発する。
SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。
SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-05-22T13:39:44Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction [2.9488233765621295]
アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T17:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。