論文の概要: Adaptive machine learning for protein engineering
- arxiv url: http://arxiv.org/abs/2106.05466v1
- Date: Thu, 10 Jun 2021 02:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:02:43.779050
- Title: Adaptive machine learning for protein engineering
- Title(参考訳): タンパク質工学のための適応機械学習
- Authors: Brian L. Hie, Kevin K. Yang
- Abstract要約: 実験的な測定のためにシーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いてシーケンスを選択する方法について論じる。
まず,1ラウンドの機械学習最適化によってシーケンスを選択する方法について議論する。
次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャルな最適化について議論する。
- 参考スコア(独自算出の注目度): 0.4568777157687961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine-learning models that learn from data to predict how protein sequence
encodes function are emerging as a useful protein engineering tool. However,
when using these models to suggest new protein designs, one must deal with the
vast combinatorial complexity of protein sequences. Here, we review how to use
a sequence-to-function machine-learning surrogate model to select sequences for
experimental measurement. First, we discuss how to select sequences through a
single round of machine-learning optimization. Then, we discuss sequential
optimization, where the goal is to discover optimized sequences and improve the
model across multiple rounds of training, optimization, and experimental
measurement.
- Abstract(参考訳): データから学習してタンパク質配列のエンコード機能を予測する機械学習モデルは、有用なタンパク質工学ツールとして登場しつつある。
しかし、これらのモデルを使って新しいタンパク質設計を提案する場合、タンパク質配列の膨大な組合せの複雑さに対処する必要がある。
本稿では,シーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いて,実験的な測定を行う。
まず,1ラウンドの機械学習最適化によるシーケンス選択について述べる。
次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャル最適化について議論する。
関連論文リスト
- SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization [44.356888079704156]
タンパク質工学は、任意のタンパク質の広大な配列空間のため、大変な作業である。
タンパク質工学は通常、野生型または鉛配列に突然変異を加える反復的なプロセスによって行われる。
本稿では,木探索に基づくバンド学習手法を提案する。この手法は,初期シーケンスから始まる木を,バンド学習モデルのガイダンスで拡張する。
論文 参考訳(メタデータ) (2024-01-08T06:33:27Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Combination of digital signal processing and assembled predictive models
facilitates the rational design of proteins [0.0]
タンパク質の突然変異の影響を予測することは、タンパク質工学における最も重要な課題の1つである。
符号化段階での物理化学的特性の組み合わせを選択するために,クラスタリング,埋め込み,次元還元技術を用いている。
次に、各プロパティセットで最高のパフォーマンス予測モデルを選択し、組み立てたモデルを作成します。
論文 参考訳(メタデータ) (2020-10-07T16:35:02Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z) - Fast differentiable DNA and protein sequence optimization for molecular
design [0.0]
シークエンスから生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。
そこで本研究では,従来提案されていたストレートスルー近似法を用いて,離散シーケンスサンプルを最適化する。
私たちがFast SeqPropPropと呼ぶ結果のアルゴリズムは、以前のバージョンに比べて最大100倍の高速収束を実現している。
論文 参考訳(メタデータ) (2020-05-22T17:03:55Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。