論文の概要: TransPeakNet: Solvent-Aware 2D NMR Prediction via Multi-Task Pre-Training and Unsupervised Learning
- arxiv url: http://arxiv.org/abs/2403.11353v4
- Date: Mon, 16 Dec 2024 00:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:47.533088
- Title: TransPeakNet: Solvent-Aware 2D NMR Prediction via Multi-Task Pre-Training and Unsupervised Learning
- Title(参考訳): TransPeakNet:マルチタスク事前学習と教師なし学習による溶媒を意識した2次元NMR予測
- Authors: Yunrui Li, Hao Xu, Ambrish Kumar, Duosheng Wang, Christian Heiss, Parastoo Azadi, Pengyu Hong,
- Abstract要約: 2次元NMRにおけるクロスピーク予測のための教師なしトレーニングフレームワークを提案する。
このアプローチでは、1Hと13Cシフトの注釈付き1Dデータセット上でMLモデルを事前トレーニングし、教師なしの方法で微調整する。
479名のエキスパートアノテートHSQCスペクトルの評価は,従来の手法よりもモデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 5.7279868722119325
- License:
- Abstract: Nuclear Magnetic Resonance (NMR) spectroscopy is essential for revealing molecular structure, electronic environment, and dynamics. Accurate NMR shift prediction allows researchers to validate structures by comparing predicted and observed shifts. While Machine Learning (ML) has improved one-dimensional (1D) NMR shift prediction, predicting 2D NMR remains challenging due to limited annotated data. To address this, we introduce an unsupervised training framework for predicting cross-peaks in 2D NMR, specifically Heteronuclear Single Quantum Coherence (HSQC).Our approach pretrains an ML model on an annotated 1D dataset of 1H and 13C shifts, then finetunes it in an unsupervised manner using unlabeled HSQC data, which simultaneously generates cross-peak annotations. Our model also adjusts for solvent effects. Evaluation on 479 expert-annotated HSQC spectra demonstrates our model's superiority over traditional methods (ChemDraw and Mestrenova), achieving Mean Absolute Errors (MAEs) of 2.05 ppm and 0.165 ppm for 13C shifts and 1H shifts respectively. Our algorithmic annotations show a 95.21% concordance with experts' assignments, underscoring the approach's potential for structural elucidation in fields like organic chemistry, pharmaceuticals, and natural products.
- Abstract(参考訳): 核磁気共鳴分光法(NMR)は分子構造、電子環境、力学を明らかにするのに不可欠である。
正確なNMRシフト予測により、予測されたシフトと観測されたシフトを比較して構造を検証することができる。
機械学習(ML)は1次元(1D)NMRシフト予測を改善したが、注釈付きデータが少ないため、2次元NMRの予測は難しいままである。
これを解決するために、2次元NMR、特にヘテロ核単一量子コヒーレンス(HSQC)におけるクロスピーク予測のための教師なしトレーニングフレームワークを導入する。
提案手法では、1Hと13Cシフトの注釈付き1Dデータセット上でMLモデルを事前トレーニングし、未ラベルのHSQCデータを用いて教師なしで微調整し、同時にクロスピークアノテーションを生成する。
我々のモデルは溶媒効果も調整する。
HSQCスペクトルは,従来の手法 (ChemDraw と Mestrenova) よりも優れており, 平均絶対誤差 (MAEs) は2.05ppm, 0.165ppmであり, 13Cシフトは0.165ppmである。
我々のアルゴリズムアノテーションは、専門家の課題と95.21%の一致を示し、有機化学、医薬品、天然物などの分野における構造解明のアプローチの可能性を示している。
関連論文リスト
- Equivariant Masked Position Prediction for Efficient Molecular Representation [6.761418610103767]
グラフニューラルネットワーク(GNN)は、計算化学においてかなりの可能性を示している。
Equivariant Masked Position Prediction (EMPP) と呼ばれる新しい自己教師型アプローチを導入する。
EMPPは、より明確に定義され、量子力学的特徴の学習を強化するニュアンスされた位置予測タスクを定式化する。
論文 参考訳(メタデータ) (2025-02-12T08:39:26Z) - Graph-neural-network predictions of solid-state NMR parameters from spherical tensor decomposition [0.0]
核磁気共鳴(NMR)は、物質の局所的な原子構造に敏感な強力な分光法である。
機械学習(ML)は、このような予測を行うための効率的なルートとして登場した。
論文 参考訳(メタデータ) (2024-12-19T17:11:07Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Denoise Pretraining on Nonequilibrium Molecules for Accurate and
Transferable Neural Potentials [8.048439531116367]
より正確で伝達可能なGNNポテンシャル予測を実現するために,非平衡分子配座の事前学習を提案する。
小分子で事前学習したモデルでは、顕著な伝達性を示し、多様な分子系で微調整された場合の性能が向上した。
論文 参考訳(メタデータ) (2023-03-03T21:15:22Z) - Generative structured normalizing flow Gaussian processes applied to
spectroscopic data [4.0773490083614075]
物理科学では、限られた訓練データは将来の観測データを適切に特徴づけることができない。
特に外挿を依頼される場合、モデルが不確実性を適切に示すことは重要である。
火星探査機キュリオシティに搭載されたChemCam装置のレーザ誘起分解分光データに関する方法論を実証した。
論文 参考訳(メタデータ) (2022-12-14T23:57:46Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Semi-Supervised Junction Tree Variational Autoencoder for Molecular
Property Prediction [0.0]
本研究では, 化学特性予測における半教師付き学習を容易にするため, 最先端分子生成法であるJT-VAEを改良した。
我々はJT-VAEアーキテクチャを活用し、分子特性予測から条件付き分子生成までのタスクに最適な解釈可能な表現を学習する。
論文 参考訳(メタデータ) (2022-08-10T03:06:58Z) - Graph Neural Networks for Temperature-Dependent Activity Coefficient
Prediction of Solutes in Ionic Liquids [58.720142291102135]
IL中の溶質の温度依存性無限希釈交流を予測するためのGNNを提案する。
我々は、GNNを4万以上のAC値を含むデータベース上でトレーニングし、最先端のMCMと比較する。
GNNとMCMも同様に高い予測性能を達成し、GNNはトレーニング中に考慮されていないILと溶質を含む溶液のACに対して高品質な予測を可能にする。
論文 参考訳(メタデータ) (2022-06-23T15:27:29Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。