論文の概要: ChemBERTa-2: Towards Chemical Foundation Models
- arxiv url: http://arxiv.org/abs/2209.01712v1
- Date: Mon, 5 Sep 2022 00:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:08:36.550033
- Title: ChemBERTa-2: Towards Chemical Foundation Models
- Title(参考訳): ChemBERTa-2:化学基礎モデルに向けて
- Authors: Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath
Ramsundar
- Abstract要約: SMILESの言語を用いたケミカルファンデーションモデルChemBERTa-2を構築した。
本研究では,事前学習プロセスの最適化によりChemBERTaを構築した。
我々の知る限り、77Mデータセットはこれまでに分子プレトレーニングに使われた最大のデータセットの1つである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained models such as GPT-3 have had tremendous impact on modern
natural language processing by leveraging self-supervised learning to learn
salient representations that can be used to readily finetune on a wide variety
of downstream tasks. We investigate the possibility of transferring such
advances to molecular machine learning by building a chemical foundation model,
ChemBERTa-2, using the language of SMILES. While labeled data for molecular
prediction tasks is typically scarce, libraries of SMILES strings are readily
available. In this work, we build upon ChemBERTa by optimizing the pretraining
process. We compare multi-task and self-supervised pretraining by varying
hyperparameters and pretraining dataset size, up to 77M compounds from PubChem.
To our knowledge, the 77M set constitutes one of the largest datasets used for
molecular pretraining to date. We find that with these pretraining
improvements, we are competitive with existing state-of-the-art architectures
on the MoleculeNet benchmark suite. We analyze the degree to which improvements
in pretraining translate to improvement on downstream tasks.
- Abstract(参考訳): GPT-3のような事前訓練された大規模なモデルは、自己教師付き学習を利用して、様々な下流タスクで簡単に微調整できる有能な表現を学習することで、現代の自然言語処理に大きな影響を与えている。
SMILESの言語を用いて化学基礎モデルであるChemBERTa-2を構築することにより、分子機械学習にそのような進歩をもたらす可能性を検討する。
分子予測タスクのラベル付きデータは典型的には少ないが、SMILES文字列のライブラリは容易に利用できる。
本研究では,事前学習プロセスの最適化によりChemBERTaを構築した。
マルチタスクと自己教師付きプリトレーニングを比較し,ハイパーパラメータとプリトレーニングデータセットサイズ,最大77mのpubchem化合物を比較した。
我々の知る限り、77Mデータセットはこれまでに分子プレトレーニングに使われた最大のデータセットの1つである。
これらの事前トレーニングの改善により、MoeculeNetベンチマークスイートの既存の最先端アーキテクチャと競合していることが分かりました。
我々は、プレトレーニングの改善が下流タスクの改善につながる程度を分析する。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - GP-MoLFormer: A Foundation Model For Molecular Generation [31.569161097828893]
本研究では,大規模ケミカルデータセット上での化学言語トランスフォーマーの訓練パラダイムを,本研究における生成タスクにまで拡張する。
具体的には, GP-MoLFormerを提案する。GP-MoLFormerは1.1B以上のケミカルSMILESをトレーニングした自己回帰分子文字列生成装置である。
GP-MoLFormerは、生成分子の数が100億の範囲にあり、参照集合が10億を超える場合でも、かなりの数の新規かつ有効でユニークなSMILESを生成することができる。
論文 参考訳(メタデータ) (2024-04-04T16:20:06Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolE: a molecular foundation model for drug discovery [0.2802437011072858]
MolEは分子基盤モデルであり、DeBERTaアーキテクチャを分子グラフに適応させる。
Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-11-03T21:22:05Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular
Property Prediction [0.0]
NLPでは、強力な下流タスク転送のおかげで、トランスフォーマーが表現学習のデファクトスタンダードになっている。
我々はChemBERTaモデルを用いて分子特性予測タスクにおいてトランスフォーマーを体系的に評価する試みの1つを最初におこなった。
以上の結果から,トランスフォーマーは分子表現学習と特性予測のための将来的な研究の道筋を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-19T21:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。