論文の概要: The divergence time of protein structures modelled by Markov matrices
and its relation to the divergence of sequences
- arxiv url: http://arxiv.org/abs/2308.06292v1
- Date: Fri, 11 Aug 2023 01:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:13:27.933989
- Title: The divergence time of protein structures modelled by Markov matrices
and its relation to the divergence of sequences
- Title(参考訳): マルコフ行列でモデル化されたタンパク質構造の発散時間と配列の発散との関係
- Authors: Sandun Rajapaksa, Lloyd Allison, Peter J. Stuckey, Maria Garcia de la
Banda, and Arun S. Konagurthu
- Abstract要約: 我々は,3次構造のばらつきのマルコフ時間を推定するために,100万組の構造を解析した。
100万組の構造を解析することにより、マルコフの発散時間と配列の関係を導出する。
本稿では,この課題によく使用されるニューラルネットワークアーキテクチャに対する二次構造予測において,競合性能を示す。
- 参考スコア(独自算出の注目度): 14.676723972349567
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A complete time-parameterized statistical model quantifying the divergent
evolution of protein structures in terms of the patterns of conservation of
their secondary structures is inferred from a large collection of protein 3D
structure alignments. This provides a better alternative to time-parameterized
sequence-based models of protein relatedness, that have clear limitations
dealing with twilight and midnight zones of sequence relationships. Since
protein structures are far more conserved due to the selection pressure
directly placed on their function, divergence time estimates can be more
accurate when inferred from structures. We use the Bayesian and
information-theoretic framework of Minimum Message Length to infer a
time-parameterized stochastic matrix (accounting for perturbed structural
states of related residues) and associated Dirichlet models (accounting for
insertions and deletions during the evolution of protein domains). These are
used in concert to estimate the Markov time of divergence of tertiary
structures, a task previously only possible using proxies (like RMSD). By
analyzing one million pairs of homologous structures, we yield a relationship
between the Markov divergence time of structures and of sequences. Using these
inferred models and the relationship between the divergence of sequences and
structures, we demonstrate a competitive performance in secondary structure
prediction against neural network architectures commonly employed for this
task. The source code and supplementary information are downloadable from
\url{http://lcb.infotech.monash.edu.au/sstsum}.
- Abstract(参考訳): 二次構造の保存パターンの観点から、タンパク質構造の分岐進化を定量化する完全な時間パラメータ統計モデルは、タンパク質の3d構造アライメントの大規模なコレクションから推測される。
これは、TwilightとNear Mid Zonesの配列関係を扱う明確な制限を持つタンパク質関連性の時間パラメータ化配列ベースのモデルにより良い代替を提供する。
タンパク質構造は、その機能に直接置かれる選択圧力により保存されるため、構造から推定される場合、分岐時間の推定はより正確である。
最短メッセージ長のベイジアンおよび情報理論の枠組みを用いて時間パラメータ化された確率行列(関連する残基の摂動構造状態の計算)と関連するディリクレモデル(タンパク質ドメインの進化における挿入と削除の計算)を推定する。
これらは、かつてはプロキシ(rmsdなど)を使用してのみ可能であった第三次構造の分岐のマルコフ時間の推定に使用される。
100万対のホモロジー構造を解析することにより、構造のマルコフ発散時間と配列の関係を得る。
これらの推定モデルとシーケンスと構造の分岐の関係を用いて、このタスクによく使用されるニューラルネットワークアーキテクチャに対する二次構造予測における競合性能を示す。
ソースコードと追加情報は \url{http://lcb.infotech.monash.edu.au/sstsum} からダウンロードできる。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Approximate learning of parsimonious Bayesian context trees [0.0]
提案するフレームワークは、合成および実世界のデータ例に基づいてテストされる。
これは、実際のタンパク質配列やハニーポットコンピュータターミナルセッションに適合すると、既存のシーケンスモデルより優れている。
論文 参考訳(メタデータ) (2024-07-27T11:50:40Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Neural Structure Learning with Stochastic Differential Equations [9.076396370870423]
本稿では,ニューラルディファレンシャル方程式と変分推論を組み合わせた新しい構造学習手法SCOTCHを提案する。
この連続的なアプローチは、任意の時点における観測からの学習と予測の両方を自然に処理することができる。
論文 参考訳(メタデータ) (2023-11-06T17:58:47Z) - Ophiuchus: Scalable Modeling of Protein Structures through Hierarchical
Coarse-graining SO(3)-Equivariant Autoencoders [1.8835495377767553]
天然タンパク質の3次元ネイティブ状態は、繰り返しおよび階層的なパターンを示す。
従来のグラフに基づくタンパク質構造のモデリングは、単一の微細な解像度でしか動作しないことが多い。
オフィチュス(Ophiuchus)は、全原子タンパク質構造を効率的に操作するSO(3)等価な粗粒化モデルである。
論文 参考訳(メタデータ) (2023-10-04T01:01:11Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Unsupervised Learning of Equivariant Structure from Sequences [30.974508897223124]
我々は,少なくとも3つの長さの時系列から対称性を学習するための教師なしのフレームワークを提案する。
当社のフレームワークでは,データセットの非絡み合い構造が副産物として自然に現れることを実証します。
論文 参考訳(メタデータ) (2022-10-12T07:29:18Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning the Evolutionary and Multi-scale Graph Structure for
Multivariate Time Series Forecasting [50.901984244738806]
時系列の進化的・マルチスケール相互作用をモデル化する方法を示す。
特に、まず、拡張畳み込みと協調して、スケール固有の相関を捉える階層グラフ構造を提供する。
最終的な予測を得るために上記のコンポーネントを統合するために、統合ニューラルネットワークが提供される。
論文 参考訳(メタデータ) (2022-06-28T08:11:12Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。