論文の概要: RITA: a Study on Scaling Up Generative Protein Sequence Models
- arxiv url: http://arxiv.org/abs/2205.05789v1
- Date: Wed, 11 May 2022 22:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:18:08.361530
- Title: RITA: a Study on Scaling Up Generative Protein Sequence Models
- Title(参考訳): RITA:生成タンパク質配列モデルのスケールアップに関する研究
- Authors: Daniel Hesslow, Niccol\'o Zanichelli, Pascal Notin, Iacopo Poli and
Debora Marks
- Abstract要約: RITAは、最大12億のパラメータを持つタンパク質配列の自己回帰生成モデルのスイートである。
タンパク質ドメインにおける自己回帰変換器のモデルサイズで機能がどのように進化するかについて、最初の系統的研究を行う。
- 参考スコア(独自算出の注目度): 3.6748639131154315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we introduce RITA: a suite of autoregressive generative models
for protein sequences, with up to 1.2 billion parameters, trained on over 280
million protein sequences belonging to the UniRef-100 database. Such generative
models hold the promise of greatly accelerating protein design. We conduct the
first systematic study of how capabilities evolve with model size for
autoregressive transformers in the protein domain: we evaluate RITA models in
next amino acid prediction, zero-shot fitness, and enzyme function prediction,
showing benefits from increased scale. We release the RITA models openly, to
the benefit of the research community.
- Abstract(参考訳): 本稿では、uniref-100データベースに属する2億8000万以上のタンパク質配列に基づいて、最大120億のパラメータを持つタンパク質配列の自己回帰生成モデルであるritaを紹介する。
このような生成モデルはタンパク質の設計を大いに加速する可能性を秘めている。
タンパク質ドメインにおける自己回帰トランスフォーマーのモデルサイズで機能がどのように進化するかを示す最初の体系的研究を行い、次回のアミノ酸予測、ゼロショット適合性、酵素機能予測においてRITAモデルを評価する。
我々は,研究コミュニティの利益のために,RITAモデルをオープンにリリースする。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - Protein Discovery with Discrete Walk-Jump Sampling [54.588524248466406]
我々はスムーズなエネルギー関数を学び、ランゲヴィン・マルコフ連鎖モンテカルロの滑らかなデータ多様体からサンプリングし、一段階のデノイングで真のデータ多様体に投影する。
我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの最大可能性トレーニングとスコアベースモデルのサンプル品質の改善を組み合わせたものである。
抗体タンパク質生成モデルにおける本手法のロバスト性を評価し, タンパク質生成モデルに分布整合性スコアを導入する。
論文 参考訳(メタデータ) (2023-06-08T17:03:46Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文 参考訳(メタデータ) (2022-12-07T22:28:13Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - Energy-based models for atomic-resolution protein conformations [88.68597850243138]
原子スケールで動作するタンパク質コンホメーションのエネルギーモデル(EBM)を提案する。
このモデルは、結晶化されたタンパク質のデータにのみ訓練されている。
モデル出力と隠された表現の研究により、タンパク質エネルギーに関連する物理化学的性質を捉えることが判明した。
論文 参考訳(メタデータ) (2020-04-27T20:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。