論文の概要: Solvent-Aware 2D NMR Prediction: Leveraging Multi-Tasking Training and Iterative Self-Training Strategies
- arxiv url: http://arxiv.org/abs/2403.11353v2
- Date: Tue, 28 May 2024 02:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:59:19.216182
- Title: Solvent-Aware 2D NMR Prediction: Leveraging Multi-Tasking Training and Iterative Self-Training Strategies
- Title(参考訳): 溶媒を意識した2次元NMR予測:マルチタスクトレーニングと反復自己学習戦略の活用
- Authors: Yunrui Li, Hao Xu, Pengyu Hong,
- Abstract要約: 実験2次元NMRスペクトルにおける原子2次元NMR交差ピークの予測とアノテートピークの予測のための機械学習モデルを訓練するための反復的教師なし学習(IUL)手法を提案する。
我々は19,000個のヘテロ核単一量子コヒーレンス(HSQC)スペクトルでモデルをトレーニングし、専門家アノテーションで500個のHSQCスペクトルでテストし、さらに別の専門家注釈付きHSQCデータセットで2つの従来手法(ChemDrawとMestrenova)と比較した。
HSQCクロスピーク予測では,13Cシフトで2.035ppm,0.163ppm,1HのMAEを達成する。
- 参考スコア(独自算出の注目度): 7.470166291890153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nuclear magnetic resonance (NMR) spectroscopy is crucial across diverse scientific fields, revealing detailed structural information, electronic properties, and molecular dynamic insights. Accurate prediction of NMR peaks in a spectrum from molecular structures allows chemists to effectively evaluate candidate structures by comparing predictions with experimental shifts in an NMR spectra. This process facilitates peak assignments, thereby aiding in verifying molecular structures or identifying discrepancies. Although significant progress has been made in predicting 1D NMR with Machine Learning (ML) approaches, 2D NMR prediction remains a challenge due to the lack of an annotated 2D NMR training dataset. To address this gap, we propose an Iterative Unsupervised Learning (IUL) approach to train a machine learning model for predicting atomic 2D NMR cross peaks and annotating peaks in experimental 2D NMR spectra. Initially, the model undergoes a Multi-Task pre-Training (MTT) phase using a set of annotated 1D 1H and 13C NMR spectra. Then, the model is iteratively improved through a fine-tuning process with IUL, alternating between using the model to annotate the unlabeled 2D NMR data and refining the model using the newly generated annotations. Using the proposed approach, we trained our model on 19,000 Heteronuclear Single Quantum Coherence (HSQC) spectra, tested it on 500 HSQC spectra with expert annotations, and further compared it with two traditional methods (ChemDraw and Mestrenova) on another expert-annotated HSQC dataset. For HSQC cross peak prediction, our model achieves MAE of 2.035 ppm and 0.163 ppm for 13C shifts and 1H shifts on the test dataset, respectively, and outperforms the conventional tools. This performance demonstrates not only the model's capability in accurately predicting chemical shifts, but also its effectiveness in peak assignments for experimental HSQC spectra.
- Abstract(参考訳): 核磁気共鳴(NMR)分光法は様々な科学分野において重要であり、詳細な構造情報、電子特性、分子動力学の洞察を明らかにする。
分子構造からのスペクトルにおけるNMRピークの正確な予測は、化学者がNMRスペクトルの実験的シフトと比較することによって、候補構造を効果的に評価することができる。
このプロセスはピークの割り当てを促進するため、分子構造の検証や相違点の同定に寄与する。
機械学習(ML)アプローチによる1次元NMRの予測には大きな進歩があるが、注釈付き2次元NMRトレーニングデータセットがないため、2次元NMR予測は依然として課題である。
このギャップに対処するため,実験2次元NMRスペクトルにおける原子2次元NMR交差ピークの予測とアノテートピークの予測のための機械学習モデルを訓練するための反復的教師なし学習(IUL)手法を提案する。
当初、このモデルは注釈付き1D 1Hと13C NMRスペクトルを用いてマルチタスク事前訓練(MTT)フェーズを行う。
次に、IULを用いた微調整プロセスによりモデルの改善を行い、未ラベルの2D NMRデータにアノテートするためにモデルを使用することと、新たに生成されたアノテーションを用いてモデルを精査することとを交互に交互に行う。
提案手法を用いて、19,000個のヘテロ核単一量子コヒーレンス(HSQC)スペクトルを用いてモデルをトレーニングし、専門家アノテーションを用いた500個のHSQCスペクトル上でテストし、さらに別の専門家アノテーション付きHSQCデータセット上の2つの従来手法(ChemDrawとMestrenova)と比較した。
HSQCクロスピーク予測では,テストデータセット上の13Cシフトに対して2.035 ppmと0.163 ppmのMAEを達成し,従来のツールよりも優れていた。
この性能は、化学シフトを正確に予測するモデルの性能だけでなく、実験用HSQCスペクトルのピーク割り当てにおける有効性を示す。
関連論文リスト
- Equivariant Masked Position Prediction for Efficient Molecular Representation [6.761418610103767]
グラフニューラルネットワーク(GNN)は、計算化学においてかなりの可能性を示している。
Equivariant Masked Position Prediction (EMPP) と呼ばれる新しい自己教師型アプローチを導入する。
EMPPは、より明確に定義され、量子力学的特徴の学習を強化するニュアンスされた位置予測タスクを定式化する。
論文 参考訳(メタデータ) (2025-02-12T08:39:26Z) - Graph-neural-network predictions of solid-state NMR parameters from spherical tensor decomposition [0.0]
核磁気共鳴(NMR)は、物質の局所的な原子構造に敏感な強力な分光法である。
機械学習(ML)は、このような予測を行うための効率的なルートとして登場した。
論文 参考訳(メタデータ) (2024-12-19T17:11:07Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Denoise Pretraining on Nonequilibrium Molecules for Accurate and
Transferable Neural Potentials [8.048439531116367]
より正確で伝達可能なGNNポテンシャル予測を実現するために,非平衡分子配座の事前学習を提案する。
小分子で事前学習したモデルでは、顕著な伝達性を示し、多様な分子系で微調整された場合の性能が向上した。
論文 参考訳(メタデータ) (2023-03-03T21:15:22Z) - Generative structured normalizing flow Gaussian processes applied to
spectroscopic data [4.0773490083614075]
物理科学では、限られた訓練データは将来の観測データを適切に特徴づけることができない。
特に外挿を依頼される場合、モデルが不確実性を適切に示すことは重要である。
火星探査機キュリオシティに搭載されたChemCam装置のレーザ誘起分解分光データに関する方法論を実証した。
論文 参考訳(メタデータ) (2022-12-14T23:57:46Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Semi-Supervised Junction Tree Variational Autoencoder for Molecular
Property Prediction [0.0]
本研究では, 化学特性予測における半教師付き学習を容易にするため, 最先端分子生成法であるJT-VAEを改良した。
我々はJT-VAEアーキテクチャを活用し、分子特性予測から条件付き分子生成までのタスクに最適な解釈可能な表現を学習する。
論文 参考訳(メタデータ) (2022-08-10T03:06:58Z) - Graph Neural Networks for Temperature-Dependent Activity Coefficient
Prediction of Solutes in Ionic Liquids [58.720142291102135]
IL中の溶質の温度依存性無限希釈交流を予測するためのGNNを提案する。
我々は、GNNを4万以上のAC値を含むデータベース上でトレーニングし、最先端のMCMと比較する。
GNNとMCMも同様に高い予測性能を達成し、GNNはトレーニング中に考慮されていないILと溶質を含む溶液のACに対して高品質な予測を可能にする。
論文 参考訳(メタデータ) (2022-06-23T15:27:29Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。