論文の概要: Transfer Learning across Different Chemical Domains: Virtual Screening
of Organic Materials with Deep Learning Models Pretrained on Small Molecule
and Chemical Reaction Data
- arxiv url: http://arxiv.org/abs/2311.18377v2
- Date: Tue, 5 Mar 2024 10:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:28:36.314222
- Title: Transfer Learning across Different Chemical Domains: Virtual Screening
of Organic Materials with Deep Learning Models Pretrained on Small Molecule
and Chemical Reaction Data
- Title(参考訳): 異なる化学ドメイン間の伝達学習:小分子と化学反応データに基づく深層学習モデルによる有機材料の仮想スクリーニング
- Authors: Chengwei Zhang, Yushuang Zhai, Ziyang Gong, Hongliang Duan, Yuan-Bin
She, Yun-Fang Yang, An Su
- Abstract要約: 本研究は, 薬物様小分子のデータベースと化学反応を利用したBERTモデルの事前学習の可能性を示す。
BERTモデルを5つの仮想スクリーニングタスクのデータで微調整することで、USPTO-SMILESデータセットで事前訓練されたバージョンは、3つのタスクで0.94以上、2つのタスクで0.81以上に達した。
- 参考スコア(独自算出の注目度): 0.9006354614415222
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning is becoming a preferred method for the virtual screening of
organic materials due to its cost-effectiveness over traditional
computationally demanding techniques. However, the scarcity of labeled data for
organic materials poses a significant challenge for training advanced machine
learning models. This study showcases the potential of utilizing databases of
drug-like small molecules and chemical reactions to pretrain the BERT model,
enhancing its performance in the virtual screening of organic materials. By
fine-tuning the BERT models with data from five virtual screening tasks, the
version pretrained with the USPTO-SMILES dataset achieved R2 scores exceeding
0.94 for three tasks and over 0.81 for two others. This performance surpasses
that of models pretrained on the small molecule or organic materials databases
and outperforms three traditional machine learning models trained directly on
virtual screening data. The success of the USPTO-SMILES pretrained BERT model
can be attributed to the diverse array of organic building blocks in the USPTO
database, offering a broader exploration of the chemical space. The study
further suggests that accessing a reaction database with a wider range of
reactions than the USPTO could further enhance model performance. Overall, this
research validates the feasibility of applying transfer learning across
different chemical domains for the efficient virtual screening of organic
materials.
- Abstract(参考訳): 機械学習は、従来の計算要求技術よりもコスト効率が高いため、有機材料の仮想スクリーニングに好まれている。
しかし、有機材料のラベル付きデータの不足は、高度な機械学習モデルを訓練する上で大きな課題となる。
本研究は, 薬物様小分子のデータベースと化学反応を利用して, BERTモデルの事前学習を行い, 有機材料の仮想スクリーニングにおける性能を向上させる可能性を示す。
BERTモデルを5つの仮想スクリーニングタスクのデータで微調整することで、USPTO-SMILESデータセットで事前訓練されたバージョンは、3つのタスクで0.94以上、2つのタスクで0.81以上に達した。
この性能は、小さな分子や有機材料データベースで事前訓練されたモデルを超え、仮想スクリーニングデータで直接訓練された3つの伝統的な機械学習モデルを上回る。
USPTO-SMILES事前訓練されたBERTモデルの成功は、USPTOデータベースの多様な有機建築ブロックによるものであり、より広い化学空間の探索を提供する。
さらに、USPTOよりも広い反応範囲の反応データベースにアクセスすることで、モデルの性能がさらに向上する可能性が示唆された。
本研究は, 有機材料の効率的な仮想スクリーニングのために, 異なる化学領域に転移学習を適用する可能性を検証する。
関連論文リスト
- Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Synthetic pre-training for neural-network interatomic potentials [0.0]
本研究は,ニューラルネットワークを用いた原子間ポテンシャルモデルにおいて,既存の機械学習ポテンシャルと大規模に比較して得られる合成原子構造データが有用な事前学習課題であることを示す。
一度大きな合成データセットで事前訓練すると、これらのモデルはより小さく、量子力学的なモデルに微調整され、計算の練習における数値的精度と安定性が向上する。
論文 参考訳(メタデータ) (2023-07-24T17:16:24Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Transfer learning for chemically accurate interatomic neural network
potentials [0.0]
密度汎関数計算から得られたデータに基づいてネットワークパラメータを事前学習することにより、より正確なab-initioデータに基づいてトレーニングされたモデルのサンプル効率が向上することを示す。
ANI-1x および ANI-1ccx データセット上で事前訓練および微調整されたGM-NN電位を提供する。
論文 参考訳(メタデータ) (2022-12-07T19:21:01Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z) - Automated Biodesign Engineering by Abductive Meta-Interpretive Learning [8.788941848262786]
Abductive Meta-Interpretive Learning($Meta_Abd$)を活用した自動バイオデザインエンジニアリングフレームワークを提案します。
本稿では,Abductive Meta-Interpretive Learning(Meta_Abd$)を活用したバイオデザイン自動工学フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-17T12:10:26Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。