論文の概要: Combination of digital signal processing and assembled predictive models
facilitates the rational design of proteins
- arxiv url: http://arxiv.org/abs/2010.03516v1
- Date: Wed, 7 Oct 2020 16:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:31:26.557325
- Title: Combination of digital signal processing and assembled predictive models
facilitates the rational design of proteins
- Title(参考訳): デジタル信号処理と組み立て予測モデルの組合せは、タンパク質の合理的設計を促進する
- Authors: David Medina-Ortiz and Sebastian Contreras and Juan Amado-Hinojosa and
Jorge Torres-Almonacid and Juan A. Asenjo and Marcelo Navarrete and \'Alvaro
Olivera-Nappa
- Abstract要約: タンパク質の突然変異の影響を予測することは、タンパク質工学における最も重要な課題の1つである。
符号化段階での物理化学的特性の組み合わせを選択するために,クラスタリング,埋め込み,次元還元技術を用いている。
次に、各プロパティセットで最高のパフォーマンス予測モデルを選択し、組み立てたモデルを作成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the effect of mutations in proteins is one of the most critical
challenges in protein engineering; by knowing the effect a substitution of one
(or several) residues in the protein's sequence has on its overall properties,
could design a variant with a desirable function. New strategies and
methodologies to create predictive models are continually being developed.
However, those that claim to be general often do not reach adequate
performance, and those that aim to a particular task improve their predictive
performance at the cost of the method's generality. Moreover, these approaches
typically require a particular decision to encode the amino acidic sequence,
without an explicit methodological agreement in such endeavor. To address these
issues, in this work, we applied clustering, embedding, and dimensionality
reduction techniques to the AAIndex database to select meaningful combinations
of physicochemical properties for the encoding stage. We then used the chosen
set of properties to obtain several encodings of the same sequence, to
subsequently apply the Fast Fourier Transform (FFT) on them. We perform an
exploratory stage of Machine-Learning models in the frequency space, using
different algorithms and hyperparameters. Finally, we select the best
performing predictive models in each set of properties and create an assembled
model. We extensively tested the proposed methodology on different datasets and
demonstrated that the generated assembled model achieved notably better
performance metrics than those models based on a single encoding and, in most
cases, better than those previously reported. The proposed method is available
as a Python library for non-commercial use under the GNU General Public License
(GPLv3) license.
- Abstract(参考訳): タンパク質の変異の影響を予測することは、タンパク質工学において最も重要な課題の一つであり、タンパク質の配列の1つ(または複数の)残基の置換がその全体的な性質に与える影響を知ることによって、望ましい機能を持つ変異体を設計することができる。
予測モデルを作成するための新しい戦略と方法論が継続的に開発されている。
しかし、一般に主張されるものは十分な性能に達しず、特定のタスクを目標とするものは、メソッドの一般性を犠牲にして予測性能を向上させる。
さらに、これらのアプローチは通常、アミノ酸配列をコードするには特定の決定を必要とする。
これらの課題に対処するため,AAIndexデータベースにクラスタリング,埋め込み,次元削減手法を適用し,符号化段階における物理化学的特性の有意義な組み合わせを選択する。
次に、選択したプロパティセットを使用して、同じシーケンスの複数のエンコーディングを取得し、その後、Fast Fourier Transform (FFT) を適用した。
我々は、異なるアルゴリズムとハイパーパラメータを用いて、周波数空間における機械学習モデルの探索段階を実行する。
最後に、各プロパティセットで最高のパフォーマンスな予測モデルを選択し、組み立てたモデルを作成します。
提案手法を異なるデータセット上で広範囲に検証し, 生成したモデルが, 単一エンコーディングに基づくモデルと, 多くの場合, 以前報告したモデルよりも優れたパフォーマンス指標を達成できることを実証した。
提案手法は、GNU General Public License (GPLv3)ライセンスの下で非商用使用のためのPythonライブラリとして利用可能である。
関連論文リスト
- Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Best-Subset Selection in Generalized Linear Models: A Fast and
Consistent Algorithm via Splicing Technique [0.6338047104436422]
ベストサブセットセクションは、このタイプの問題の聖杯として広く見なされている。
軽度条件下での最適部分集合回復のためのアルゴリズムを提案し,提案した。
我々の実装は、一般的な変数選択ツールキットと比較して約4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-08-01T03:11:31Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Fourier Representations for Black-Box Optimization over Categorical
Variables [34.0277529502051]
そこで本研究では,ブラックボックス評価のためのサロゲートモデルと組み合わせた既存手法を提案する。
このような表現を学習するために、サロゲートモデルを更新するための2つの異なる設定を検討する。
合成ベンチマークと実世界のRNA配列最適化および設計問題の数値実験により,提案手法の表現力を示す。
論文 参考訳(メタデータ) (2022-02-08T08:14:58Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Adaptive machine learning for protein engineering [0.4568777157687961]
実験的な測定のためにシーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いてシーケンスを選択する方法について論じる。
まず,1ラウンドの機械学習最適化によってシーケンスを選択する方法について議論する。
次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャルな最適化について議論する。
論文 参考訳(メタデータ) (2021-06-10T02:56:35Z) - Evolutionary Variational Optimization of Generative Models [0.0]
分散最適化と進化的アルゴリズムの2つの一般的な最適化アプローチをジェネレーションモデルのための学習アルゴリズムの導出に組み合わせます。
進化的アルゴリズムは変動境界を効果的かつ効率的に最適化できることを示す。
ゼロショット」学習のカテゴリでは、多くのベンチマーク設定で最先端の技術を大幅に改善するために進化的変動アルゴリズムを観察しました。
論文 参考訳(メタデータ) (2020-12-22T19:06:33Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z) - Fast differentiable DNA and protein sequence optimization for molecular
design [0.0]
シークエンスから生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。
そこで本研究では,従来提案されていたストレートスルー近似法を用いて,離散シーケンスサンプルを最適化する。
私たちがFast SeqPropPropと呼ぶ結果のアルゴリズムは、以前のバージョンに比べて最大100倍の高速収束を実現している。
論文 参考訳(メタデータ) (2020-05-22T17:03:55Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。