論文の概要: Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization
- arxiv url: http://arxiv.org/abs/2401.06173v1
- Date: Mon, 8 Jan 2024 06:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:53:40.487983
- Title: Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization
- Title(参考訳): 木探索に基づくタンパク質配列最適化のための進化帯域
- Authors: Jiahao Qiu, Hui Yuan, Jinghong Zhang, Wentao Chen, Huazheng Wang,
Mengdi Wang
- Abstract要約: タンパク質工学は、任意のタンパク質の広大な配列空間のため、大変な作業である。
タンパク質工学は通常、野生型または鉛配列に突然変異を加える反復的なプロセスによって行われる。
本稿では,木探索に基づくバンド学習手法を提案する。この手法は,初期シーケンスから始まる木を,バンド学習モデルのガイダンスで拡張する。
- 参考スコア(独自算出の注目度): 44.356888079704156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern biotechnologies allow synthesizing new proteins and function
measurements at scale, efficiently exploring a protein sequence space and
engineering it remains a daunting task due to the vast sequence space of any
given protein. Protein engineering is typically conducted through an iterative
process of adding mutations to the wild-type or lead sequences, recombination
of mutations, and running new rounds of screening. To enhance the efficiency of
such a process, we propose a tree search-based bandit learning method, which
expands a tree starting from the initial sequence with the guidance of a bandit
machine learning model. Under simplified assumptions and a Gaussian Process
prior, we provide theoretical analysis and a Bayesian regret bound,
demonstrating that the combination of local search and bandit learning method
can efficiently discover a near-optimal design. The full algorithm is
compatible with a suite of randomized tree search heuristics, machine learning
models, pre-trained embeddings, and bandit techniques. We test various
instances of the algorithm across benchmark protein datasets using simulated
screens. Experiment results demonstrate that the algorithm is both
sample-efficient and able to find top designs using reasonably small mutation
counts.
- Abstract(参考訳): 現代のバイオテクノロジーは、新しいタンパク質の合成と機能測定を大規模に行うことができるが、タンパク質の配列空間を効率的に探索し、工学的に研究することは、任意のタンパク質の広大な配列空間のために困難な作業である。
タンパク質工学は通常、野生型または鉛配列に突然変異を付加し、突然変異の組換えを行い、新しいスクリーニングを行う反復的なプロセスによって行われる。
このようなプロセスの効率を高めるため,本研究では,初期シーケンスから始まる木をバンディット機械学習モデルのガイダンスで拡張する,木探索に基づくバンディット学習手法を提案する。
単純な仮定とガウス過程を前提として,理論解析とベイズ的後悔のバウンドを提供し,局所探索法とバンディット学習法の組み合わせが最適に近い設計を効率的に発見できることを実証する。
完全なアルゴリズムは、ランダム化された木探索ヒューリスティック、機械学習モデル、事前学習された埋め込み、バンディット技法のスイートと互換性がある。
ベンチマークタンパクデータセットにまたがる様々なアルゴリズムのインスタンスをシミュレートスクリーンを用いてテストした。
実験の結果、このアルゴリズムはサンプル効率が高く、合理的に小さな突然変異数を用いてトップデザインを見つけることができることがわかった。
関連論文リスト
- Protein Design by Integrating Machine Learning with Quantum Annealing and Quantum-inspired Optimization [0.0]
タンパク質設計の問題は、与えられた三次元構造に折り畳まれたポリペプチド配列を見つけることである。
最近の機械学習のブレークスルーにより、正確で迅速な構造予測が可能になった。
本稿では,機械学習と量子インスパイアされたアルゴリズムのアルゴリズム的および技術的進歩を統合できる汎用的なタンパク質設計手法を提案する。
論文 参考訳(メタデータ) (2024-07-09T18:42:45Z) - Reinforcement Learning for Sequence Design Leveraging Protein Language Models [14.477268882311991]
本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:31:36Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Adaptive machine learning for protein engineering [0.4568777157687961]
実験的な測定のためにシーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いてシーケンスを選択する方法について論じる。
まず,1ラウンドの機械学習最適化によってシーケンスを選択する方法について議論する。
次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャルな最適化について議論する。
論文 参考訳(メタデータ) (2021-06-10T02:56:35Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z) - Fast differentiable DNA and protein sequence optimization for molecular
design [0.0]
シークエンスから生物学的適合性を正確に予測する機械学習モデルは、分子設計の強力なツールになりつつある。
そこで本研究では,従来提案されていたストレートスルー近似法を用いて,離散シーケンスサンプルを最適化する。
私たちがFast SeqPropPropと呼ぶ結果のアルゴリズムは、以前のバージョンに比べて最大100倍の高速収束を実現している。
論文 参考訳(メタデータ) (2020-05-22T17:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。