論文の概要: 2DNMRGym: An Annotated Experimental Dataset for Atom-Level Molecular Representation Learning in 2D NMR via Surrogate Supervision
- arxiv url: http://arxiv.org/abs/2505.18181v1
- Date: Fri, 16 May 2025 18:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.442729
- Title: 2DNMRGym: An Annotated Experimental Dataset for Atom-Level Molecular Representation Learning in 2D NMR via Surrogate Supervision
- Title(参考訳): 2DNMRGym:2DNMRにおける原子レベル分子表現学習のためのアノテート実験データセット
- Authors: Yunrui Li, Hao Xu, Pengyu Hong,
- Abstract要約: 2DNMRにおける機械学習に基づく表現学習のために設計された最初のアノテート実験データセットである2DNMRGymを紹介する。
2DNMRGymは、サロゲートの監視設定を採用する:モデルは、以前に検証されたメソッドからアルゴリズム生成アノテーションを使用して訓練される。
2Dおよび3D GNNおよびGNN変換器モデルを用いてベンチマーク結果を提供し、将来の作業の強力な基盤を確立する。
- 参考スコア(独自算出の注目度): 7.470166291890153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-dimensional (2D) Nuclear Magnetic Resonance (NMR) spectroscopy, particularly Heteronuclear Single Quantum Coherence (HSQC) spectroscopy, plays a critical role in elucidating molecular structures, interactions, and electronic properties. However, accurately interpreting 2D NMR data remains labor-intensive and error-prone, requiring highly trained domain experts, especially for complex molecules. Machine Learning (ML) holds significant potential in 2D NMR analysis by learning molecular representations and recognizing complex patterns from data. However, progress has been limited by the lack of large-scale and high-quality annotated datasets. In this work, we introduce 2DNMRGym, the first annotated experimental dataset designed for ML-based molecular representation learning in 2D NMR. It includes over 22,000 HSQC spectra, along with the corresponding molecular graphs and SMILES strings. Uniquely, 2DNMRGym adopts a surrogate supervision setup: models are trained using algorithm-generated annotations derived from a previously validated method and evaluated on a held-out set of human-annotated gold-standard labels. This enables rigorous assessment of a model's ability to generalize from imperfect supervision to expert-level interpretation. We provide benchmark results using a series of 2D and 3D GNN and GNN transformer models, establishing a strong foundation for future work. 2DNMRGym supports scalable model training and introduces a chemically meaningful benchmark for evaluating atom-level molecular representations in NMR-guided structural tasks. Our data and code is open-source and available on Huggingface and Github.
- Abstract(参考訳): 2次元(2次元)核磁気共鳴分光(NMR)、特にヘテロ核単一量子コヒーレンス分光(HSQC)は、分子構造、相互作用、電子的性質の解明に重要な役割を果たしている。
しかし、2D NMRデータの正確な解釈は、特に複雑な分子に対して高度に訓練された領域の専門家を必要とする、労働集約的でエラーを起こしやすいままである。
機械学習(ML)は、分子表現を学習し、データから複雑なパターンを認識することによって、2次元NMR分析において大きな可能性を秘めている。
しかし、大規模で高品質な注釈付きデータセットが不足しているため、進歩は制限されている。
本研究では、2DNMRにおけるMLに基づく分子表現学習のために設計された最初のアノテート実験データセットである2DNMRGymを紹介する。
22,000以上のHSQCスペクトルと対応する分子グラフとSMILES文字列を含んでいる。
2DNMRGymは、以前に検証された手法から得られたアルゴリズム生成アノテーションを使用して訓練され、人間の注釈付きゴールドスタンダードラベルの保持されたセットで評価される。
これにより、不完全な監督から専門家レベルの解釈までモデルを一般化する能力の厳密な評価が可能になる。
2Dおよび3D GNNおよびGNN変換器モデルを用いてベンチマーク結果を提供し、将来の作業の強力な基盤を確立する。
2DNMRGymはスケーラブルなモデルトレーニングをサポートし、NMR誘導構造タスクにおける原子レベルの分子表現を評価するための化学的に有意義なベンチマークを導入している。
私たちのデータとコードはオープンソースで、HuggingfaceとGithubで公開しています。
関連論文リスト
- DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Graph-neural-network predictions of solid-state NMR parameters from spherical tensor decomposition [0.0]
核磁気共鳴(NMR)は、物質の局所的な原子構造に敏感な強力な分光法である。
機械学習(ML)は、このような予測を行うための効率的なルートとして登場した。
論文 参考訳(メタデータ) (2024-12-19T17:11:07Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - TransPeakNet: Solvent-Aware 2D NMR Prediction via Multi-Task Pre-Training and Unsupervised Learning [5.7279868722119325]
2次元NMRにおけるクロスピーク予測のための教師なしトレーニングフレームワークを提案する。
このアプローチでは、1Hと13Cシフトの注釈付き1Dデータセット上でMLモデルを事前トレーニングし、教師なしの方法で微調整する。
479名のエキスパートアノテートHSQCスペクトルの評価は,従来の手法よりもモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T21:52:51Z) - Confidence-guided Lesion Mask-based Simultaneous Synthesis of Anatomic
and Molecular MR Images in Patients with Post-treatment Malignant Gliomas [65.64363834322333]
信頼性ガイドSAMR(CG-SAMR)は、病変情報からマルチモーダル解剖学的配列にデータを合成する。
モジュールは中間結果に対する信頼度測定に基づいて合成をガイドする。
実際の臨床データを用いた実験により,提案モデルが最先端の合成法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-06T20:20:22Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - Multi-View Graph Neural Networks for Molecular Property Prediction [67.54644592806876]
マルチビューグラフニューラルネットワーク(MV-GNN)を提案する。
MV-GNNでは,学習過程を安定させるために,自己注意型読み出しコンポーネントと不一致損失を導入する。
我々は、相互依存型メッセージパッシング方式を提案することにより、MV-GNNの表現力をさらに強化する。
論文 参考訳(メタデータ) (2020-05-17T04:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。