論文の概要: A smile is all you need: Predicting limiting activity coefficients from
SMILES with natural language processing
- arxiv url: http://arxiv.org/abs/2206.07048v1
- Date: Wed, 15 Jun 2022 07:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 04:55:01.098916
- Title: A smile is all you need: Predicting limiting activity coefficients from
SMILES with natural language processing
- Title(参考訳): 自然言語処理によるSMILESからのアクティビティ係数の制限予測
- Authors: Benedikt Winter, Clemens Winter, Johannes Schilling, Andr\'e Bardow
- Abstract要約: 本稿では,SMILES符号からバイナリ制限活性係数を予測する自然言語処理ネットワークであるSMILES-to-Properties-Transformer(SPT)を紹介する。
我々は、COSMO-RSからサンプリングされた大量の合成データのデータセットに基づいてネットワークをトレーニングし、実験データに基づいてモデルを微調整する。
このトレーニング戦略により、SPTは未知の分子に対しても活性係数の制限を正確に予測することができ、最先端モデルと比較して平均予測誤差を半減することができる。
- 参考スコア(独自算出の注目度): 0.1349420109127767
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge of mixtures' phase equilibria is crucial in nature and technical
chemistry. Phase equilibria calculations of mixtures require activity
coefficients. However, experimental data on activity coefficients is often
limited due to high cost of experiments. For an accurate and efficient
prediction of activity coefficients, machine learning approaches have been
recently developed. However, current machine learning approaches still
extrapolate poorly for activity coefficients of unknown molecules. In this
work, we introduce the SMILES-to-Properties-Transformer (SPT), a natural
language processing network to predict binary limiting activity coefficients
from SMILES codes. To overcome the limitations of available experimental data,
we initially train our network on a large dataset of synthetic data sampled
from COSMO-RS (10 Million data points) and then fine-tune the model on
experimental data (20 870 data points). This training strategy enables SPT to
accurately predict limiting activity coefficients even for unknown molecules,
cutting the mean prediction error in half compared to state-of-the-art models
for activity coefficient predictions such as COSMO-RS, UNIFAC, and improving on
recent machine learning approaches.
- Abstract(参考訳): 混合物の相平衡に関する知識は、自然と技術化学において不可欠である。
混合物の相平衡計算には活性係数が必要である。
しかしながら、活動係数に関する実験データは、実験のコストが高いため、しばしば制限される。
近年, 能動係数の高精度かつ効率的な予測を行う機械学習手法が開発されている。
しかし、現在の機械学習のアプローチは未知の分子の活性係数を測るには不十分である。
本研究では,SMILES符号のバイナリ制限活性係数を予測する自然言語処理ネットワークであるSMILES-to-Properties-Transformer(SPT)を紹介する。
実験データの限界を克服するため、まずCOSMO-RS(1000万データポイント)からサンプリングされた大量の合成データのデータセット上でネットワークをトレーニングし、実験データ(20870データポイント)でモデルを微調整します。
このトレーニング戦略により、SPTは未知の分子に対しても活性係数の制限を正確に予測し、COSMO-RSやUNIFACといった活動係数予測の最先端モデルと比較して平均予測誤差を半減し、最近の機械学習アプローチを改善することができる。
関連論文リスト
- Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Transition Role of Entangled Data in Quantum Machine Learning [51.6526011493678]
エンタングルメントは量子コンピューティングを強化するリソースとして機能する。
最近の進歩は量子力学の学習に対する肯定的な影響を浮き彫りにした。
我々は、絡み合ったデータを用いて量子力学を学習するための量子no-free-lunch(NFL)定理を確立する。
論文 参考訳(メタデータ) (2023-06-06T08:06:43Z) - Machine learning enabled experimental design and parameter estimation
for ultrafast spin dynamics [54.172707311728885]
機械学習とベイズ最適実験設計(BOED)を組み合わせた方法論を提案する。
本手法は,大規模スピンダイナミクスシミュレーションのためのニューラルネットワークモデルを用いて,BOEDの正確な分布と実用計算を行う。
数値ベンチマークでは,XPFS実験の誘導,モデルパラメータの予測,実験時間内でのより情報的な測定を行う上で,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-03T06:19:20Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Development and Evaluation of Conformal Prediction Methods for QSAR [0.5161531917413706]
定量的構造活性相関モデル(QSAR)は、化合物の生物活性を予測するために一般的に用いられる手法である。
優れた予測性能を達成する機械学習(ML)アルゴリズムの多くは、予測の不確実性を推定するためのいくつかのアドオンメソッドを必要とする。
コンフォーマル予測(CP)は予測アルゴリズムに非依存であり、データ分布の弱い仮定の下で有効な予測間隔を生成できる。
論文 参考訳(メタデータ) (2023-04-03T13:41:09Z) - Predictive Scale-Bridging Simulations through Active Learning [43.48102250786867]
我々は,局所的な微粒なシミュレーションを用いて粗大な流体力学を解析するために,能動的学習手法を用いる。
提案手法は3つの課題に対処する。連続体粗大軌道の予測,大規模計算からの粗大軌道の動的更新,ニューラルネットワークモデルの不確かさの定量化である。
論文 参考訳(メタデータ) (2022-09-20T15:58:50Z) - SPT-NRTL: A physics-guided machine learning model to predict
thermodynamically consistent activity coefficients [0.12352483741564477]
本研究では,熱力学的に一貫した活動係数を予測する機械学習モデルであるSPT-NRTLを紹介する。
SPT-NRTLは、全ての官能基にわたる活動係数の予測においてUNIFACよりも高い精度を達成する。
論文 参考訳(メタデータ) (2022-09-09T06:21:05Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文 参考訳(メタデータ) (2022-08-23T07:33:14Z) - Machine Learning in Thermodynamics: Prediction of Activity Coefficients
by Matrix Completion [34.7384528263504]
任意の二成分混合物の活性係数を予測する確率行列分解モデルを提案する。
提案手法は,30年以上にわたって改良されてきた最先端の手法より優れている。
これは二成分混合物の物理化学的性質を予測する新しい方法への展望を開放する。
論文 参考訳(メタデータ) (2020-01-29T03:16:23Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。