論文の概要: Fast differentiable DNA and protein sequence optimization for molecular
design
- arxiv url: http://arxiv.org/abs/2005.11275v2
- Date: Sun, 20 Dec 2020 22:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:31:18.409761
- Title: Fast differentiable DNA and protein sequence optimization for molecular
design
- Title(参考訳): 分子設計のための高速分化dnaとタンパク質配列最適化
- Authors: Johannes Linder and Georg Seelig
- Abstract要約: シークエンスから生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。
そこで本研究では,従来提案されていたストレートスルー近似法を用いて,離散シーケンスサンプルを最適化する。
私たちがFast SeqPropPropと呼ぶ結果のアルゴリズムは、以前のバージョンに比べて最大100倍の高速収束を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designing DNA and protein sequences with improved function has the potential
to greatly accelerate synthetic biology. Machine learning models that
accurately predict biological fitness from sequence are becoming a powerful
tool for molecular design. Activation maximization offers a simple design
strategy for differentiable models: one-hot coded sequences are first
approximated by a continuous representation which is then iteratively optimized
with respect to the predictor oracle by gradient ascent. While elegant, this
method suffers from vanishing gradients and may cause predictor pathologies
leading to poor convergence. Here, we build on a previously proposed
straight-through approximation method to optimize through discrete sequence
samples. By normalizing nucleotide logits across positions and introducing an
adaptive entropy variable, we remove bottlenecks arising from overly large or
skewed sampling parameters. The resulting algorithm, which we call Fast
SeqProp, achieves up to 100-fold faster convergence compared to previous
versions of activation maximization and finds improved fitness optima for many
applications. We demonstrate Fast SeqProp by designing DNA and protein
sequences for six deep learning predictors, including a protein structure
predictor.
- Abstract(参考訳): 機能を改善したDNAおよびタンパク質配列の設計は、合成生物学を大幅に加速させる可能性がある。
生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。
アクティベーションの最大化は、微分可能なモデルに対して単純な設計戦略を提供する: 1ホットの符号化シーケンスは、まず連続表現によって近似される。
エレガントではあるが、この方法は勾配の消失に悩まされ、収束不良につながる予測的病理を引き起こす可能性がある。
そこで本研究では, 先行提案のストレートスルー近似法を基礎として, 離散シーケンスサンプルを最適化する。
位置をまたいだヌクレオチドロジットの正規化と適応エントロピー変数の導入により、過度に大きくあるいは歪んだサンプリングパラメータから生じるボトルネックを取り除く。
得られたアルゴリズムはFast SeqPropと呼ばれ、従来のアクティベーションの最大化よりも最大100倍高速収束を実現し、多くのアプリケーションに対する適合度最適化の改善を見出した。
我々は、タンパク質構造予測器を含む6つのディープラーニング予測器のためのdnaとタンパク質配列を設計することで、高速なseqpropを示す。
関連論文リスト
- Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization [44.356888079704156]
タンパク質工学は、任意のタンパク質の広大な配列空間のため、大変な作業である。
タンパク質工学は通常、野生型または鉛配列に突然変異を加える反復的なプロセスによって行われる。
本稿では,木探索に基づくバンド学習手法を提案する。この手法は,初期シーケンスから始まる木を,バンド学習モデルのガイダンスで拡張する。
論文 参考訳(メタデータ) (2024-01-08T06:33:27Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Adaptive machine learning for protein engineering [0.4568777157687961]
実験的な測定のためにシーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いてシーケンスを選択する方法について論じる。
まず,1ラウンドの機械学習最適化によってシーケンスを選択する方法について議論する。
次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャルな最適化について議論する。
論文 参考訳(メタデータ) (2021-06-10T02:56:35Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Combination of digital signal processing and assembled predictive models
facilitates the rational design of proteins [0.0]
タンパク質の突然変異の影響を予測することは、タンパク質工学における最も重要な課題の1つである。
符号化段階での物理化学的特性の組み合わせを選択するために,クラスタリング,埋め込み,次元還元技術を用いている。
次に、各プロパティセットで最高のパフォーマンス予測モデルを選択し、組み立てたモデルを作成します。
論文 参考訳(メタデータ) (2020-10-07T16:35:02Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。