Fugu-MT 論文翻訳(概要): Uni-Mol2: Exploring Molecular Pretraining Model at Scale

論文の概要: Uni-Mol2: Exploring Molecular Pretraining Model at Scale

arxiv url: http://arxiv.org/abs/2406.14969v2
Date: Mon, 1 Jul 2024 09:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 13:01:26.997774
Title: Uni-Mol2: Exploring Molecular Pretraining Model at Scale
Title（参考訳）: Uni-Mol2: スケールでの分子プレトレーニングモデルを探る
Authors: Xiaohong Ji, Zhen Wang, Zhifeng Gao, Hang Zheng, Linfeng Zhang, Guolin Ke, Weinan E,
Abstract要約: 原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
参考スコア（独自算出の注目度）: 27.172011090947823
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In recent years, pretraining models have made significant advancements in the fields of natural language processing (NLP), computer vision (CV), and life sciences. The significant advancements in NLP and CV are predominantly driven by the expansion of model parameters and data size, a phenomenon now recognized as the scaling laws. However, research exploring scaling law in molecular pretraining models remains unexplored. In this work, we present Uni-Mol2 , an innovative molecular pretraining model that leverages a two-track transformer to effectively integrate features at the atomic level, graph level, and geometry structure level. Along with this, we systematically investigate the scaling law within molecular pretraining models, characterizing the power-law correlations between validation loss and model size, dataset size, and computational resources. Consequently, we successfully scale Uni-Mol2 to 1.1 billion parameters through pretraining on 800 million conformations, making it the largest molecular pretraining model to date. Extensive experiments show consistent improvement in the downstream tasks as the model size grows. The Uni-Mol2 with 1.1B parameters also outperforms existing methods, achieving an average 27% improvement on the QM9 and 14% on COMPAS-1D dataset.
Abstract（参考訳）: 近年、自然言語処理(NLP)、コンピュータビジョン(CV)、生命科学の分野で、事前学習モデルが大幅に進歩している。 NLPとCVの顕著な進歩は、主にモデルパラメータとデータサイズの拡大によって引き起こされるが、これは現在スケーリング法則として認識されている現象である。しかし、分子プレトレーニングモデルにおけるスケーリング法則の研究は未解明のままである。本研究では,2トラックトランスを用いた分子前訓練モデルUni-Mol2を提案し,原子レベル,グラフレベル,幾何学構造レベルでの機能を効果的に統合する。これに伴い,分子プレトレーニングモデルにおけるスケーリングの法則を体系的に検討し,検証損失とモデルサイズ,データセットサイズ,計算資源の相関関係を特徴付ける。その結果、Uni-Mol2を8億のコンフォメーションを事前学習することで、11億のパラメータに拡張し、これまでで最大の分子前訓練モデルとなった。大規模な実験では、モデルのサイズが大きくなるにつれて下流のタスクが一貫した改善が示される。 1.1Bパラメータを持つUni-Mol2も既存の手法より優れており、QM9では平均27%、CompAS-1Dデータセットでは14%改善している。

関連論文リスト

Exploring Scaling Laws for EHR Foundation Models [17.84205864956449]
EHR基礎モデルのスケーリング法則に関する最初の実証的研究について述べる。パラボリックなIsoFLOP曲線や計算,モデルパラメータ,データサイズ,臨床ユーティリティ間の電力-法則関係など,一貫したスケーリングパターンを同定する。
論文参考訳（メタデータ） (2025-05-29T01:05:11Z)
HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling [52.58723853697152]
DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
論文参考訳（メタデータ） (2025-05-27T07:57:35Z)
Scaling Laws for Emulation of Stellar Spectra [0.0]
最適な性能を達成するために、トランスフォーマーベースのスペクトルエミュレータをスケーリングするためのトレーニングガイドラインを提供する。この結果から,最適計算資源割り当てにはバランスの取れたスケーリングが必要であることが示唆された。本研究は、拡張されたドメイン転送機能を持つスペクトル基底モデルを開発するための基盤を確立する。
論文参考訳（メタデータ） (2025-03-24T12:20:24Z)
Transformers for molecular property prediction: Domain adaptation efficiently improves performance [12.556171106847811]
本研究の目的は,分子特性予測における変圧器モデルの限界について検討し,克服することである。本稿では,事前学習データセットのサイズと多様性がトランスフォーマーモデルの性能に及ぼす影響について検討する。
論文参考訳（メタデータ） (2025-03-05T10:40:09Z)
Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文参考訳（メタデータ） (2024-11-04T14:58:37Z)
Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文参考訳（メタデータ） (2024-11-03T01:56:15Z)
The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。 LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文参考訳（メタデータ） (2024-05-02T02:20:12Z)
GP-MoLFormer: A Foundation Model For Molecular Generation [30.06169570297667]
我々は、大規模化学データセット上で化学言語変換器を訓練するパラダイムを、生成タスクにまで拡張する。具体的にはGP-MoLFormerを提案する。GP-MoLFormerは1.1B(ビリオン)以上の化学SMILESで訓練される自己回帰型分子弦発生器である。
論文参考訳（メタデータ） (2024-04-04T16:20:06Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Molecule-Morphology Contrastive Pretraining for Transferable Molecular Representation [0.0]
分子グラフと細胞形態のマルチモーダル表現を学習するためのフレームワークであるMoCoP(Moecule-Morphology Contrastive Pretraining)を紹介する。我々は、JUMP-CPコンソーシアムのデータを用いて、MoCoPを約100K分子と600K形態素にスケールする。この結果から,MoCoPを用いた細胞形態と分子グラフの統合により,QSARモデルの性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2023-04-27T02:01:41Z)
MolE: a molecular foundation model for drug discovery [0.2802437011072858]
MolEは分子基盤モデルであり、DeBERTaアーキテクチャを分子グラフに適応させる。 Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
論文参考訳（メタデータ） (2022-11-03T21:22:05Z)
The Diminishing Returns of Masked Language Models to Science [0.7549732580284559]
トレーニングデータ,モデルサイズ,事前学習,微調整時間が下流の12の科学的課題に与える影響を評価する。モデルのサイズ、トレーニングデータ、計算時間の増加が、必ずしも大幅な改善につながるとは限らないことが分かっています。
論文参考訳（メタデータ） (2022-05-23T14:35:08Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
Semi-supervised physics guided deep learning framework for predicting the I-V characteristics of GAN HEMT [0.0]
このフレームワークは本質的に汎用的であり、その振る舞いが知られている限り、他の研究分野の現象をモデル化するために適用することができる。窒化ガリウム系高電子移動トランジスタ(GaN HEMT)のI-V特性を予測する半教師付き物理誘導ニューラルネットワーク(SPGNN)が開発された。 SPGNNは、目に見えない状況であっても、従来のニューラルネットワーク(TNN)と同じような、あるいは優れたパフォーマンスを達成するために、トレーニングデータの要求を80%以上削減する。
論文参考訳（メタデータ） (2021-10-20T18:48:50Z)
Learning Neural Generative Dynamics for Molecular Conformation Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文参考訳（メタデータ） (2021-02-20T03:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。