論文の概要: Transfer Learning across Different Chemical Domains: Virtual Screening
of Organic Materials with Deep Learning Models Pretrained on Small Molecule
and Chemical Reaction Data
- arxiv url: http://arxiv.org/abs/2311.18377v1
- Date: Thu, 30 Nov 2023 09:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:18:39.307818
- Title: Transfer Learning across Different Chemical Domains: Virtual Screening
of Organic Materials with Deep Learning Models Pretrained on Small Molecule
and Chemical Reaction Data
- Title(参考訳): 異なる化学ドメイン間の伝達学習:小分子と化学反応データに基づく深層学習モデルによる有機材料の仮想スクリーニング
- Authors: Chengwei Zhang, Yushuang Zhai, Ziyang Gong, Yuan-Bin She, Yun-Fang
Yang, An Su
- Abstract要約: 薬物のような小さな分子や化学反応データベースは、有機物質の仮想スクリーニングのためにBERTモデルを事前訓練するために用いられる。
USPTO-SMILESプレトレーニングされたBERTモデルは2つのタスクに対してR2 > 0.90と1つのタスクに対してR2 > 0.82を有していた。
- 参考スコア(独自算出の注目度): 0.9543275841854469
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning prediction of organic materials properties is an efficient
virtual screening method ahead of more expensive screening methods. However,
this approach has suffered from insufficient labeled data on organic materials
to train state-of-the-art machine learning models. In this study, we
demonstrate that drug-like small molecule and chemical reaction databases can
be used to pretrain the BERT model for the virtual screening of organic
materials. Among the BERT models fine-tuned by five virtual screening tasks on
organic materials, the USPTO-SMILES pretrained BERT model had R2 > 0.90 for two
tasks and R2 > 0.82 for one, which was generally superior to the same models
pretrained by the small molecule or organic materials databases, as well as to
the other three traditional machine learning models trained directly on the
virtual screening task data. The superior performance of the USPTO-SMILES
pretrained BERT model is due to the greater variety of organic building blocks
in the USPTO database and the broader coverage of the chemical space. The even
better performance of the BERT model pretrained externally from a chemical
reaction database with additional sources of chemical reactions strengthens our
proof of concept that transfer learning across different chemical domains is
practical for the virtual screening of organic materials.
- Abstract(参考訳): 有機材料特性の機械学習予測は、より高価なスクリーニング手法よりも先にある効率的な仮想スクリーニング手法である。
しかしながら、このアプローチは、最先端の機械学習モデルをトレーニングするために、有機材料のラベル付きデータ不足に苦しめられている。
本研究では,薬物様小分子および化学反応データベースを用いて,有機物質の仮想スクリーニングのためのbertモデルを事前学習できることを実証する。
有機材料上で5つの仮想スクリーニングタスクによって微調整されたBERTモデルのうち、USPTO-SMILES事前訓練されたBERTモデルは2つのタスクに対してR2 > 0.90、R2 > 0.82であった。
USPTO-SMILESプレトレーニングされたBERTモデルの優れた性能は、USPTOデータベースにおけるより多様な有機構造ブロックと、より広い化学空間のカバーに起因する。
化学反応を付加した化学反応データベースから事前訓練されたBERTモデルのより優れた性能は、異なる化学ドメイン間での変換学習が有機材料の仮想スクリーニングに有効であるという概念の証明を強化する。
関連論文リスト
- Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Synthetic pre-training for neural-network interatomic potentials [0.0]
本研究は,ニューラルネットワークを用いた原子間ポテンシャルモデルにおいて,既存の機械学習ポテンシャルと大規模に比較して得られる合成原子構造データが有用な事前学習課題であることを示す。
一度大きな合成データセットで事前訓練すると、これらのモデルはより小さく、量子力学的なモデルに微調整され、計算の練習における数値的精度と安定性が向上する。
論文 参考訳(メタデータ) (2023-07-24T17:16:24Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Transfer learning for chemically accurate interatomic neural network
potentials [0.0]
密度汎関数計算から得られたデータに基づいてネットワークパラメータを事前学習することにより、より正確なab-initioデータに基づいてトレーニングされたモデルのサンプル効率が向上することを示す。
ANI-1x および ANI-1ccx データセット上で事前訓練および微調整されたGM-NN電位を提供する。
論文 参考訳(メタデータ) (2022-12-07T19:21:01Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z) - Automated Biodesign Engineering by Abductive Meta-Interpretive Learning [8.788941848262786]
Abductive Meta-Interpretive Learning($Meta_Abd$)を活用した自動バイオデザインエンジニアリングフレームワークを提案します。
本稿では,Abductive Meta-Interpretive Learning(Meta_Abd$)を活用したバイオデザイン自動工学フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-17T12:10:26Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。