論文の概要: ProGen: Language Modeling for Protein Generation
- arxiv url: http://arxiv.org/abs/2004.03497v1
- Date: Sun, 8 Mar 2020 04:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:17:21.483723
- Title: ProGen: Language Modeling for Protein Generation
- Title(参考訳): ProGen:タンパク質生成のための言語モデリング
- Authors: Ali Madani, Bryan McCann, Nikhil Naik, Nitish Shirish Keskar, Namrata
Anand, Raphael R. Eguchi, Po-Ssu Huang, Richard Socher
- Abstract要約: タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。
コストのかかる構造アノテーションが欠如しているタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。
- 参考スコア(独自算出の注目度): 47.32931317203297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling for protein engineering is key to solving fundamental
problems in synthetic biology, medicine, and material science. We pose protein
engineering as an unsupervised sequence generation problem in order to leverage
the exponentially growing set of proteins that lack costly, structural
annotations. We train a 1.2B-parameter language model, ProGen, on ~280M protein
sequences conditioned on taxonomic and keyword tags such as molecular function
and cellular component. This provides ProGen with an unprecedented range of
evolutionary sequence diversity and allows it to generate with fine-grained
control as demonstrated by metrics based on primary sequence similarity,
secondary structure accuracy, and conformational energy.
- Abstract(参考訳): タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。
コストのかかる構造アノテーションを欠くタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。
1.2bパラメータ言語モデルprogenを分子機能や細胞成分などのキーワードタグと分類された約280mのタンパク質配列で訓練した。
これにより、ProGenは前例のない進化的配列の多様性を提供し、一次配列の類似性、二次構造精度、コンフォメーションエネルギーに基づく測定値によるきめ細かい制御を生成できる。
関連論文リスト
- Diffusion Language Models Are Versatile Protein Learners [80.51049288791717]
拡散タンパク言語モデル (DPLM) は、タンパク質配列の強力な生成および予測能力を示す多用途タンパク言語モデルである。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。