論文の概要: ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular
Property Prediction
- arxiv url: http://arxiv.org/abs/2010.09885v2
- Date: Fri, 23 Oct 2020 04:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:14:46.977325
- Title: ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular
Property Prediction
- Title(参考訳): ChemBERTa:分子特性予測のための大規模自己監督プレトレーニング
- Authors: Seyone Chithrananda, Gabriel Grand and Bharath Ramsundar
- Abstract要約: NLPでは、強力な下流タスク転送のおかげで、トランスフォーマーが表現学習のデファクトスタンダードになっている。
我々はChemBERTaモデルを用いて分子特性予測タスクにおいてトランスフォーマーを体系的に評価する試みの1つを最初におこなった。
以上の結果から,トランスフォーマーは分子表現学習と特性予測のための将来的な研究の道筋を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GNNs and chemical fingerprints are the predominant approaches to representing
molecules for property prediction. However, in NLP, transformers have become
the de-facto standard for representation learning thanks to their strong
downstream task transfer. In parallel, the software ecosystem around
transformers is maturing rapidly, with libraries like HuggingFace and BertViz
enabling streamlined training and introspection. In this work, we make one of
the first attempts to systematically evaluate transformers on molecular
property prediction tasks via our ChemBERTa model. ChemBERTa scales well with
pretraining dataset size, offering competitive downstream performance on
MoleculeNet and useful attention-based visualization modalities. Our results
suggest that transformers offer a promising avenue of future work for molecular
representation learning and property prediction. To facilitate these efforts,
we release a curated dataset of 77M SMILES from PubChem suitable for
large-scale self-supervised pretraining.
- Abstract(参考訳): GNNと化学指紋は、特性予測のために分子を表現する主要なアプローチである。
しかし、NLPでは、強力な下流タスク転送のおかげで、トランスフォーマーが表現学習のデファクトスタンダードになっている。
並行して、トランスフォーマーを取り巻くソフトウェアエコシステムは急速に成熟しており、HuggingFaceやBertVizといったライブラリが合理化されたトレーニングとイントロスペクションを可能にしている。
本研究では,ChemBERTaモデルを用いて,分子特性予測タスクにおいてトランスフォーマーを体系的に評価する試みの1つである。
ChemBERTaはトレーニング済みのデータセットサイズに適しており、MoeculeNet上での競争力のあるダウンストリームパフォーマンスと、有用な注意ベースの視覚化モードを提供する。
以上の結果から,トランスフォーマは分子表現学習と特性予測に有望な将来業績をもたらすことが示唆された。
これらの取り組みを容易にするため,PubChemから77M SMILESのキュレートデータセットを公開し,大規模自己監督型事前トレーニングに適合する。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Transformers for molecular property prediction: Lessons learned from the past five years [0.0]
我々は、現在利用可能なモデルを分析し、MPP用のトランスフォーマーモデルを微調整し、トレーニング時に生じる重要な質問を探索する。
我々は、異なるモデルを比較する際の課題に対処し、標準化されたデータ分割とロバストな統計分析の必要性を強調した。
論文 参考訳(メタデータ) (2024-04-05T09:05:37Z) - Transferring a molecular foundation model for polymer property
predictions [3.067983186439152]
トランスモデルの自己教師付き事前トレーニングには、大規模なデータセットが必要である。
本研究では, 高分子特性を微調整し, 小分子で事前学習したトランスフォーマーを用いることで, 強化ポリマーデータセットでトレーニングしたトランスフォーマーと同等の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T19:55:00Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - ChemBERTa-2: Towards Chemical Foundation Models [0.0]
SMILESの言語を用いたケミカルファンデーションモデルChemBERTa-2を構築した。
本研究では,事前学習プロセスの最適化によりChemBERTaを構築した。
我々の知る限り、77Mデータセットはこれまでに分子プレトレーニングに使われた最大のデータセットの1つである。
論文 参考訳(メタデータ) (2022-09-05T00:31:12Z) - Pre-training Transformers for Molecular Property Prediction Using
Reaction Prediction [0.0]
トランスファーラーニングはコンピュータビジョンや自然言語処理といった分野に大きな影響を与えた。
反応データを用いた分子表現学習のための事前学習手法を提案する。
未学習のベースラインモデルと比較して,12タスクのうち5タスクに対して統計的に有意な正の効果を示した。
論文 参考訳(メタデータ) (2022-07-06T14:51:38Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Transformers for prompt-level EMA non-response prediction [62.41658786277712]
エコロジー・モメンタリー・アセスメント(Ecological Momentary Assessments、EMA)は、認知状態、影響、行動、環境要因を測定するための重要な心理的データ源である。
参加者がEMAプロンプトに反応しない非応答は、内因性問題である。
非応答を正確に予測できる能力は、EMAのデリバリを改善し、コンプライアンスの介入を開発するために利用することができる。
論文 参考訳(メタデータ) (2021-11-01T18:38:47Z) - Dual-view Molecule Pre-training [186.07333992384287]
デュアルビュー分子事前学習は、両方のタイプの分子表現の強さを効果的に組み合わせることができる。
DMPは9つの分子特性予測タスクでテストされ、そのうち7つで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-17T03:58:38Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - Molecule Attention Transformer [5.441166835871135]
そこで本研究では,分子特性予測タスクで競合する単一ニューラルネットワークアーキテクチャを設計するために,分子注意変換(MAT)を提案する。
我々の重要な革新は、原子間距離と分子グラフ構造を用いてトランスフォーマーの注意機構を強化することである。
論文 参考訳(メタデータ) (2020-02-19T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。