論文の概要: Reinforcement Learning for Sequence Design Leveraging Protein Language Models
- arxiv url: http://arxiv.org/abs/2407.03154v2
- Date: Sat, 16 Nov 2024 17:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:10.667426
- Title: Reinforcement Learning for Sequence Design Leveraging Protein Language Models
- Title(参考訳): タンパク質言語モデルを活用したシーケンス設計のための強化学習
- Authors: Jithendaraa Subramanian, Shivakanth Sujit, Niloy Irtisam, Umong Sain, Riashat Islam, Derek Nowrouzezahrai, Samira Ebrahimi Kahou,
- Abstract要約: 本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
- 参考スコア(独自算出の注目度): 14.477268882311991
- License:
- Abstract: Protein sequence design, determined by amino acid sequences, are essential to protein engineering problems in drug discovery. Prior approaches have resorted to evolutionary strategies or Monte-Carlo methods for protein design, but often fail to exploit the structure of the combinatorial search space, to generalize to unseen sequences. In the context of discrete black box optimization over large search spaces, learning a mutation policy to generate novel sequences with reinforcement learning is appealing. Recent advances in protein language models (PLMs) trained on large corpora of protein sequences offer a potential solution to this problem by scoring proteins according to their biological plausibility (such as the TM-score). In this work, we propose to use PLMs as a reward function to generate new sequences. Yet the PLM can be computationally expensive to query due to its large size. To this end, we propose an alternative paradigm where optimization can be performed on scores from a smaller proxy model that is periodically finetuned, jointly while learning the mutation policy. We perform extensive experiments on various sequence lengths to benchmark RL-based approaches, and provide comprehensive evaluations along biological plausibility and diversity of the protein. Our experimental results include favorable evaluations of the proposed sequences, along with high diversity scores, demonstrating that RL is a strong candidate for biological sequence design. Finally, we provide a modular open source implementation can be easily integrated in most RL training loops, with support for replacing the reward model with other PLMs, to spur further research in this domain. The code for all experiments is provided in the supplementary material.
- Abstract(参考訳): アミノ酸配列によって決定されるタンパク質配列の設計は、薬物発見におけるタンパク質工学の問題に不可欠である。
それまでのアプローチは、タンパク質設計の進化戦略やモンテカルロ法に頼っていたが、しばしば組み合わせ探索空間の構造を利用して、目に見えない配列に一般化することができなかった。
大規模な検索空間上での個別のブラックボックス最適化の文脈では、強化学習を伴う新規なシーケンスを生成する突然変異ポリシーを学習することが魅力的である。
タンパク質言語モデル(PLM)の最近の進歩は、タンパク質配列の大規模なコーパスに基づいて訓練され、その生物学的妥当性(TMスコアなど)に応じてタンパク質を評価することにより、この問題に対する潜在的な解決策を提供する。
本研究では,PLMを報酬関数として利用して新たなシーケンスを生成することを提案する。
しかし、PLMはその大きさが大きいため、クエリに計算コストがかかる可能性がある。
そこで本研究では,突然変異ポリシーを学習しながら,周期的に微調整された小さなプロキシモデルからスコアに対して最適化を行う方法を提案する。
我々は、RLに基づくアプローチをベンチマークするために、様々な配列長に関する広範な実験を行い、生物学的妥当性とタンパク質の多様性に関する包括的な評価を行った。
実験の結果,提案した配列の良好な評価,高い多様性のスコア,およびRLが生物配列設計の有力な候補であることが確認された。
最後に、モジュール化されたオープンソース実装を、ほとんどのRLトレーニングループに簡単に組み込むことができ、報酬モデルを他のPLMに置き換えることをサポートし、この領域におけるさらなる研究を促進することができる。
全ての実験のコードは補足材料で提供される。
関連論文リスト
- Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization [44.356888079704156]
タンパク質工学は、任意のタンパク質の広大な配列空間のため、大変な作業である。
タンパク質工学は通常、野生型または鉛配列に突然変異を加える反復的なプロセスによって行われる。
本稿では,木探索に基づくバンド学習手法を提案する。この手法は,初期シーケンスから始まる木を,バンド学習モデルのガイダンスで拡張する。
論文 参考訳(メタデータ) (2024-01-08T06:33:27Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Importance Weighted Expectation-Maximization for Protein Sequence Design [8.731580091353523]
そこで本研究では,IsEM-Proという,特定の適合基準に向けてタンパク質配列を生成する手法を提案する。
中心となるIsEM-Proは、独立に学習されたマルコフランダムフィールド(MRF)の構造特徴によって強化された潜在生成モデルである。
8つのタンパク質配列設計タスクの実験により、我々のIsEM-Proは、平均的なフィットネススコアで少なくとも55%以上のパフォーマンスで過去のベストメソッドよりも優れていたことが示される。
論文 参考訳(メタデータ) (2023-04-30T04:56:36Z) - Designing Biological Sequences via Meta-Reinforcement Learning and
Bayesian Optimization [68.28697120944116]
メタ強化学習を用いて自己回帰生成モデルを訓練し、選択のための有望なシーケンスを提案する。
我々は,データのサブセットのサンプリングによって誘導されるMDPの分布に対する最適ポリシーを求める問題として,この問題を提起する。
このようなアンサンブルに対するメタラーニングは,報酬の過小評価に対して頑健であり,競争的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-13T18:37:27Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution [18.726398852721204]
タンパク質指向進化のための効率的で実験的な設計指向のクローズドループ最適化フレームワークを提案する。
ODBOは、新しい低次元タンパク質エンコーディング戦略と、外乱検出による検索空間事前スクリーニングによって強化されたベイズ最適化を組み合わせている。
本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2022-05-19T13:21:31Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。