論文の概要: MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction
- arxiv url: http://arxiv.org/abs/2411.01856v1
- Date: Mon, 04 Nov 2024 07:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:26.412256
- Title: MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction
- Title(参考訳): MeToken: 均一なマイクロ環境トークンは翻訳後の修正予測を後押しする
- Authors: Cheng Tan, Zhenxiao Cao, Zhangyang Gao, Lirong Wu, Siyuan Li, Yufei Huang, Jun Xia, Bozhen Hu, Stan Z. Li,
- Abstract要約: 翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
- 参考スコア(独自算出の注目度): 65.33218256339151
- License:
- Abstract: Post-translational modifications (PTMs) profoundly expand the complexity and functionality of the proteome, regulating protein attributes and interactions that are crucial for biological processes. Accurately predicting PTM sites and their specific types is therefore essential for elucidating protein function and understanding disease mechanisms. Existing computational approaches predominantly focus on protein sequences to predict PTM sites, driven by the recognition of sequence-dependent motifs. However, these approaches often overlook protein structural contexts. In this work, we first compile a large-scale sequence-structure PTM dataset, which serves as the foundation for fair comparison. We introduce the MeToken model, which tokenizes the micro-environment of each amino acid, integrating both sequence and structural information into unified discrete tokens. This model not only captures the typical sequence motifs associated with PTMs but also leverages the spatial arrangements dictated by protein tertiary structures, thus providing a holistic view of the factors influencing PTM sites. Designed to address the long-tail distribution of PTM types, MeToken employs uniform sub-codebooks that ensure even the rarest PTMs are adequately represented and distinguished. We validate the effectiveness and generalizability of MeToken across multiple datasets, demonstrating its superior performance in accurately identifying PTM types. The results underscore the importance of incorporating structural data and highlight MeToken's potential in facilitating accurate and comprehensive PTM predictions, which could significantly impact proteomics research. The code and datasets are available at https://github.com/A4Bio/MeToken.
- Abstract(参考訳): 翻訳後修飾(PTM)はプロテオームの複雑さと機能を大きく拡張し、タンパク質の属性や相互作用を調節する。
したがって、PTM部位とその特異なタイプを正確に予測することは、タンパク質の機能の解明と疾患のメカニズムの理解に不可欠である。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
しかし、これらのアプローチはしばしばタンパク質の構造的文脈を見落としている。
本研究では,まず,大規模シーケンス構造PTMデータセットをコンパイルし,公正比較の基礎となる。
本稿では,各アミノ酸のマイクロ環境をトークン化し,配列と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
このモデルは、PTMに関連する典型的な配列モチーフをキャプチャするだけでなく、タンパク質第三次構造によって決定される空間配置も活用し、PTMサイトに影響を与える因子の全体像を提供する。
PTM型の長期分布に対処するために設計されたMeTokenは、最も稀なPTMでさえ適切に表現され、区別されるように、均一なサブコードブックを使用している。
我々は,複数のデータセットにまたがるMeTokenの有効性と一般化性を検証し,PTM型を正確に識別する上で,その優れた性能を示す。
結果は、構造データの導入の重要性を強調し、プロテオミクス研究に大きな影響を及ぼす可能性のある、正確かつ包括的なPTM予測を促進するMeTokenの可能性を強調した。
コードとデータセットはhttps://github.com/A4Bio/MeToken.comで入手できる。
関連論文リスト
- NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Improving PTM Site Prediction by Coupling of Multi-Granularity Structure
and Multi-Scale Sequence Representation [7.337067876477941]
タンパク質翻訳後修飾(PTM)サイト予測はバイオインフォマティクスの基本的な課題である。
マルチグラニュラリティ構造とマルチスケールシーケンス表現の結合によるPTMサイト予測手法を提案する。
3つのデータセットに対する大規模な実験は、PTM-CMGMSが最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-01-04T20:49:32Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - PointIso: Point Cloud Based Deep Learning Model for Detecting
Arbitrary-Precision Peptide Features in LC-MS Map through Attention Based
Segmentation [5.495506445661776]
PointIsoは、ペプチドの特徴検出の問題を解決するために、ポイントクラウドベースの任意の精度のディープラーニングネットワークである。
ベンチマークデータセットにおいて、高品質なMS/MS識別を98%検出する。
論文 参考訳(メタデータ) (2020-09-15T17:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。