論文の概要: Uni-Mol2: Exploring Molecular Pretraining Model at Scale
- arxiv url: http://arxiv.org/abs/2406.14969v1
- Date: Fri, 21 Jun 2024 08:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:13:25.527328
- Title: Uni-Mol2: Exploring Molecular Pretraining Model at Scale
- Title(参考訳): Uni-Mol2: スケールでの分子プレトレーニングモデルを探る
- Authors: Xiaohong Ji, Wang Zhen, Zhifeng Gao, Hang Zheng, Linfeng Zhang, Guolin Ke, Weinan E,
- Abstract要約: 原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
- 参考スコア(独自算出の注目度): 23.567599403804373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, pretraining models have made significant advancements in the fields of natural language processing (NLP), computer vision (CV), and life sciences. The significant advancements in NLP and CV are predominantly driven by the expansion of model parameters and data size, a phenomenon now recognized as the scaling laws. However, research exploring scaling law in molecular pretraining models remains unexplored. In this work, we present Uni-Mol2 , an innovative molecular pretraining model that leverages a two-track transformer to effectively integrate features at the atomic level, graph level, and geometry structure level. Along with this, we systematically investigate the scaling law within molecular pretraining models, characterizing the power-law correlations between validation loss and model size, dataset size, and computational resources. Consequently, we successfully scale Uni-Mol2 to 1.1 billion parameters through pretraining on 800 million conformations, making it the largest molecular pretraining model to date. Extensive experiments show consistent improvement in the downstream tasks as the model size grows. The Uni-Mol2 with 1.1B parameters also outperforms existing methods, achieving an average 27% improvement on the QM9 and 14% on COMPAS-1D dataset.
- Abstract(参考訳): 近年、自然言語処理(NLP)、コンピュータビジョン(CV)、生命科学の分野で、事前学習モデルが大幅に進歩している。
NLPとCVの顕著な進歩は、主にモデルパラメータとデータサイズの拡大によって引き起こされるが、これは現在スケーリング法則として認識されている現象である。
しかし、分子プレトレーニングモデルにおけるスケーリング法則の研究は未解明のままである。
本研究では,2トラックトランスを用いた分子前訓練モデルUni-Mol2を提案し,原子レベル,グラフレベル,幾何学構造レベルでの機能を効果的に統合する。
これに伴い,分子プレトレーニングモデルにおけるスケーリングの法則を体系的に検討し,検証損失とモデルサイズ,データセットサイズ,計算資源の相関関係を特徴付ける。
その結果、Uni-Mol2を8億のコンフォメーションを事前学習することで、11億のパラメータに拡張し、これまでで最大の分子前訓練モデルとなった。
大規模な実験では、モデルのサイズが大きくなるにつれて下流のタスクが一貫した改善が示される。
1.1Bパラメータを持つUni-Mol2も既存の手法より優れており、QM9では平均27%、CompAS-1Dデータセットでは14%改善している。
関連論文リスト
- The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Molecule-Morphology Contrastive Pretraining for Transferable Molecular
Representation [0.0]
分子グラフと細胞形態のマルチモーダル表現を学習するためのフレームワークであるMoCoP(Moecule-Morphology Contrastive Pretraining)を紹介する。
我々は、JUMP-CPコンソーシアムのデータを用いて、MoCoPを約100K分子と600K形態素にスケールする。
この結果から,MoCoPを用いた細胞形態と分子グラフの統合により,QSARモデルの性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-27T02:01:41Z) - MolE: a molecular foundation model for drug discovery [0.2802437011072858]
MolEは分子基盤モデルであり、DeBERTaアーキテクチャを分子グラフに適応させる。
Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-11-03T21:22:05Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - The Diminishing Returns of Masked Language Models to Science [0.7549732580284559]
トレーニングデータ,モデルサイズ,事前学習,微調整時間が下流の12の科学的課題に与える影響を評価する。
モデルのサイズ、トレーニングデータ、計算時間の増加が、必ずしも大幅な改善につながるとは限らないことが分かっています。
論文 参考訳(メタデータ) (2022-05-23T14:35:08Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Semi-supervised physics guided deep learning framework for predicting
the I-V characteristics of GAN HEMT [0.0]
このフレームワークは本質的に汎用的であり、その振る舞いが知られている限り、他の研究分野の現象をモデル化するために適用することができる。
窒化ガリウム系高電子移動トランジスタ(GaN HEMT)のI-V特性を予測する半教師付き物理誘導ニューラルネットワーク(SPGNN)が開発された。
SPGNNは、目に見えない状況であっても、従来のニューラルネットワーク(TNN)と同じような、あるいは優れたパフォーマンスを達成するために、トレーニングデータの要求を80%以上削減する。
論文 参考訳(メタデータ) (2021-10-20T18:48:50Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。