論文の概要: Transferring a molecular foundation model for polymer property
predictions
- arxiv url: http://arxiv.org/abs/2310.16958v1
- Date: Wed, 25 Oct 2023 19:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:35:26.197727
- Title: Transferring a molecular foundation model for polymer property
predictions
- Title(参考訳): 高分子物性予測のための分子基盤モデル転送
- Authors: Pei Zhang, Logan Kearney, Debsindhu Bhowmik, Zachary Fox, Amit K.
Naskar, John Gounley
- Abstract要約: トランスモデルの自己教師付き事前トレーニングには、大規模なデータセットが必要である。
本研究では, 高分子特性を微調整し, 小分子で事前学習したトランスフォーマーを用いることで, 強化ポリマーデータセットでトレーニングしたトランスフォーマーと同等の精度が得られることを示す。
- 参考スコア(独自算出の注目度): 3.067983186439152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based large language models have remarkable potential to
accelerate design optimization for applications such as drug development and
materials discovery. Self-supervised pretraining of transformer models requires
large-scale datasets, which are often sparsely populated in topical areas such
as polymer science. State-of-the-art approaches for polymers conduct data
augmentation to generate additional samples but unavoidably incurs extra
computational costs. In contrast, large-scale open-source datasets are
available for small molecules and provide a potential solution to data scarcity
through transfer learning. In this work, we show that using transformers
pretrained on small molecules and fine-tuned on polymer properties achieve
comparable accuracy to those trained on augmented polymer datasets for a series
of benchmark prediction tasks.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルは、薬物開発や材料発見のようなアプリケーションの設計最適化を加速する驚くべき可能性を秘めている。
トランスモデルの自己教師付き事前訓練には大規模なデータセットが必要であり、しばしばポリマー科学のような分野に疎結合である。
ポリマーに対する最先端のアプローチは、追加のサンプルを生成するためにデータ拡張を行うが、余計な計算コストを負うことは避けられない。
対照的に、大規模なオープンソースデータセットは小さな分子で利用可能であり、転送学習によるデータ不足に対する潜在的な解決策を提供する。
本研究では, 高分子特性を微調整し, 小分子で事前学習したトランスフォーマーを用いることで, 一連のベンチマーク予測タスクにおいて, 強化ポリマーデータセットで訓練したトランスフォーマーに匹敵する精度が得られたことを示す。
関連論文リスト
- Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - TransPolymer: a Transformer-based language model for polymer property
predictions [9.04563945965023]
TransPolymerは、トランスフォーマーをベースとした、高分子特性予測のための言語モデルである。
ケミカル・アウェアネスを用いたポリマー・トークンーザは, ポリマー配列からの学習表現を可能にする。
論文 参考訳(メタデータ) (2022-09-03T01:29:59Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z) - Copolymer Informatics with Multi-Task Deep Neural Networks [0.0]
コポリマーの性質予測の課題に取り組み、ホモポリマーを超えてポリマーインフォマティクスフレームワークを拡張します。
2つのモノマーのホモポリマーと共重合体のガラス転移、融解、分解温度の18,000以上のデータポイントを含む大きなデータセットを用いる。
開発されたモデルは、適切なデータが利用可能になったときに、よりコポリマー特性に正確、迅速、柔軟、スケーラブルです。
論文 参考訳(メタデータ) (2021-03-25T23:28:20Z) - Accelerating the screening of amorphous polymer electrolytes by learning
to reduce random and systematic errors in molecular dynamics simulations [0.8061216572215162]
本研究では,次世代リチウムイオン電池技術の候補となるアモルファス高分子電解質をスクリーニングすることを目的とする。
マルチタスクグラフニューラルネットワークは、大量のノイズの多い偏りのあるデータと少数の偏りのないデータから学ぶことができることを実証する。
従来の計算研究よりも桁違いに大きい6247個の高分子電解質をスクリーニングします。
論文 参考訳(メタデータ) (2021-01-13T20:46:24Z) - Polymer Informatics: Current Status and Critical Next Steps [1.3238373064156097]
サロゲートモデルは、インスタントプロパティ予測のために利用可能なポリマーデータに基づいて訓練される。
データ駆動型戦略は, 高分子の化学的, 物理的多様性から生じる特異な課題に, 小規模かつ大規模に対処するものである。
アプリケーションターゲットを満たす高度なAIアルゴリズムを用いて, 高分子レコメンデーションを行う逆問題の解法について検討している。
論文 参考訳(メタデータ) (2020-11-01T14:17:22Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。