Fugu-MT 論文翻訳(概要): Transfer Learning across Different Chemical Domains: Virtual Screening of Organic Materials with Deep Learning Models Pretrained on Small Molecule and Chemical Reaction Data

論文の概要: Transfer Learning across Different Chemical Domains: Virtual Screening of Organic Materials with Deep Learning Models Pretrained on Small Molecule and Chemical Reaction Data

arxiv url: http://arxiv.org/abs/2311.18377v1
Date: Thu, 30 Nov 2023 09:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 17:18:39.307818
Title: Transfer Learning across Different Chemical Domains: Virtual Screening of Organic Materials with Deep Learning Models Pretrained on Small Molecule and Chemical Reaction Data
Title（参考訳）: 異なる化学ドメイン間の伝達学習:小分子と化学反応データに基づく深層学習モデルによる有機材料の仮想スクリーニング
Authors: Chengwei Zhang, Yushuang Zhai, Ziyang Gong, Yuan-Bin She, Yun-Fang Yang, An Su
Abstract要約: 薬物のような小さな分子や化学反応データベースは、有機物質の仮想スクリーニングのためにBERTモデルを事前訓練するために用いられる。 USPTO-SMILESプレトレーニングされたBERTモデルは2つのタスクに対してR2 > 0.90と1つのタスクに対してR2 > 0.82を有していた。
参考スコア（独自算出の注目度）: 0.9543275841854469
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Machine learning prediction of organic materials properties is an efficient virtual screening method ahead of more expensive screening methods. However, this approach has suffered from insufficient labeled data on organic materials to train state-of-the-art machine learning models. In this study, we demonstrate that drug-like small molecule and chemical reaction databases can be used to pretrain the BERT model for the virtual screening of organic materials. Among the BERT models fine-tuned by five virtual screening tasks on organic materials, the USPTO-SMILES pretrained BERT model had R2 > 0.90 for two tasks and R2 > 0.82 for one, which was generally superior to the same models pretrained by the small molecule or organic materials databases, as well as to the other three traditional machine learning models trained directly on the virtual screening task data. The superior performance of the USPTO-SMILES pretrained BERT model is due to the greater variety of organic building blocks in the USPTO database and the broader coverage of the chemical space. The even better performance of the BERT model pretrained externally from a chemical reaction database with additional sources of chemical reactions strengthens our proof of concept that transfer learning across different chemical domains is practical for the virtual screening of organic materials.
Abstract（参考訳）: 有機材料特性の機械学習予測は、より高価なスクリーニング手法よりも先にある効率的な仮想スクリーニング手法である。しかしながら、このアプローチは、最先端の機械学習モデルをトレーニングするために、有機材料のラベル付きデータ不足に苦しめられている。本研究では,薬物様小分子および化学反応データベースを用いて,有機物質の仮想スクリーニングのためのbertモデルを事前学習できることを実証する。有機材料上で5つの仮想スクリーニングタスクによって微調整されたBERTモデルのうち、USPTO-SMILES事前訓練されたBERTモデルは2つのタスクに対してR2 > 0.90、R2 > 0.82であった。 USPTO-SMILESプレトレーニングされたBERTモデルの優れた性能は、USPTOデータベースにおけるより多様な有機構造ブロックと、より広い化学空間のカバーに起因する。化学反応を付加した化学反応データベースから事前訓練されたBERTモデルのより優れた性能は、異なる化学ドメイン間での変換学習が有機材料の仮想スクリーニングに有効であるという概念の証明を強化する。

関連論文リスト

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文参考訳（メタデータ） (2025-07-27T11:16:57Z)
ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文参考訳（メタデータ） (2025-06-30T05:11:19Z)
The Catechol Benchmark: Time-series Solvent Selection Data for Few-shot Machine Learning [4.864188241160383]
我々は、機械学習ベンチマークのための最初の過渡フローデータセットを提供する、収差予測のための新しいデータセットを提案する。以前のデータセットは離散パラメータに焦点を当てていましたが、実験的なセットアップによって、多数の継続的プロセス条件をサンプリングすることができます。我々は,特に理論的にモデル化が難しい課題である溶媒選択に焦点をあてる。
論文参考訳（メタデータ） (2025-06-09T10:34:14Z)
Interpretable Deep Learning for Polar Mechanistic Reaction Prediction [43.95903801494905]
PMechRP(Polar Mechanistic Reaction Predictor)は,PMechDBデータセット上で機械学習モデルをトレーニングするシステムである。私たちは、トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルの比較をトレーニングします。私たちの最高のパフォーマンスのアプローチはハイブリッドモデルで、5アンサンブルのChemformerモデルと2ステップのSiameseフレームワークを組み合わせたものです。
論文参考訳（メタデータ） (2025-04-22T02:31:23Z)
Retrosynthesis prediction enhanced by in-silico reaction data augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。 3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-31T07:40:37Z)
Synthetic pre-training for neural-network interatomic potentials [0.0]
本研究は,ニューラルネットワークを用いた原子間ポテンシャルモデルにおいて,既存の機械学習ポテンシャルと大規模に比較して得られる合成原子構造データが有用な事前学習課題であることを示す。一度大きな合成データセットで事前訓練すると、これらのモデルはより小さく、量子力学的なモデルに微調整され、計算の練習における数値的精度と安定性が向上する。
論文参考訳（メタデータ） (2023-07-24T17:16:24Z)
ChemVise: Maximizing Out-of-Distribution Chemical Detection with the Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文参考訳（メタデータ） (2023-02-09T20:19:57Z)
Transfer learning for chemically accurate interatomic neural network potentials [0.0]
密度汎関数計算から得られたデータに基づいてネットワークパラメータを事前学習することにより、より正確なab-initioデータに基づいてトレーニングされたモデルのサンプル効率が向上することを示す。 ANI-1x および ANI-1ccx データセット上で事前訓練および微調整されたGM-NN電位を提供する。
論文参考訳（メタデータ） (2022-12-07T19:21:01Z)
Calibration and generalizability of probabilistic models on low-data chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文参考訳（メタデータ） (2022-12-03T08:19:06Z)
Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。 GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文参考訳（メタデータ） (2022-07-20T07:32:02Z)
Improving Molecular Representation Learning with Metric Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。 MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文参考訳（メタデータ） (2022-02-13T04:56:18Z)
BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文参考訳（メタデータ） (2021-06-08T10:14:57Z)
Automated Biodesign Engineering by Abductive Meta-Interpretive Learning [8.788941848262786]
Abductive Meta-Interpretive Learning($Meta_Abd$)を活用した自動バイオデザインエンジニアリングフレームワークを提案します。本稿では,Abductive Meta-Interpretive Learning(Meta_Abd$)を活用したバイオデザイン自動工学フレームワークを提案する。
論文参考訳（メタデータ） (2021-05-17T12:10:26Z)
Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文参考訳（メタデータ） (2020-05-13T20:29:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。