論文の概要: From Human Labels to Literature: Semi-Supervised Learning of NMR Chemical Shifts at Scale
- arxiv url: http://arxiv.org/abs/2601.18524v1
- Date: Mon, 26 Jan 2026 14:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.867685
- Title: From Human Labels to Literature: Semi-Supervised Learning of NMR Chemical Shifts at Scale
- Title(参考訳): 人間のラベルから文学へ:大規模NMR化学シフトの半監督的学習
- Authors: Yongqi Jin, Yecheng Wang, Jun-jie Wang, Rong Zhu, Guolin Ke, Weinan E,
- Abstract要約: 本研究では,原子レベルの明示的な割り当てを伴わずに,数百万の文献抽出スペクトルからNMR化学シフトを学習する半教師付きフレームワークを提案する。
文献から抽出した大規模無ラベルスペクトルは,NMRシフトモデルをトレーニングするための実用的で効果的なデータ源として有効であることを示す。
- 参考スコア(独自算出の注目度): 17.999080555353157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate prediction of nuclear magnetic resonance (NMR) chemical shifts is fundamental to spectral analysis and molecular structure elucidation, yet existing machine learning methods rely on limited, labor-intensive atom-assigned datasets. We propose a semi-supervised framework that learns NMR chemical shifts from millions of literature-extracted spectra without explicit atom-level assignments, integrating a small amount of labeled data with large-scale unassigned spectra. We formulate chemical shift prediction from literature spectra as a permutation-invariant set supervision problem, and show that under commonly satisfied conditions on the loss function, optimal bipartite matching reduces to a sorting-based loss, enabling stable large-scale semi-supervised training beyond traditional curated datasets. Our models achieve substantially improved accuracy and robustness over state-of-the-art methods and exhibit stronger generalization on significantly larger and more diverse molecular datasets. Moreover, by incorporating solvent information at scale, our approach captures systematic solvent effects across common NMR solvents for the first time. Overall, our results demonstrate that large-scale unlabeled spectra mined from the literature can serve as a practical and effective data source for training NMR shift models, suggesting a broader role of literature-derived, weakly structured data in data-centric AI for science.
- Abstract(参考訳): 核磁気共鳴(NMR)化学シフトの正確な予測は、スペクトル分析と分子構造解明の基礎であるが、既存の機械学習手法は、限られた、労働集約的な原子を割り当てたデータセットに依存している。
本研究では、原子レベルの明示的な割り当てを伴わずに、数百万の文献抽出スペクトルからNMR化学シフトを学習し、少量のラベル付きデータを大規模未割り当てスペクトルと統合する半教師付きフレームワークを提案する。
文体スペクトルからの化学シフト予測を置換不変集合監視問題として定式化し、損失関数の条件が広く満たされている場合、最適二部マッチングはソートに基づく損失に還元され、従来のキュレートされたデータセットを超えて安定した大規模半教師付き訓練が可能となることを示す。
我々のモデルは最先端の手法よりも精度と堅牢性を大幅に向上させ、より大きく多様な分子データセット上でより強力な一般化を示す。
さらに, 大規模に溶媒情報を組み込むことで, 一般のNMR溶媒にまたがる系統的な溶媒効果を初めて捉えた。
以上の結果から,文献から抽出した大規模未ラベルスペクトルは,NMRシフトモデルをトレーニングするための実用的で効果的なデータ源として有効であることが示唆された。
関連論文リスト
- SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Comparative Analysis of Formula and Structure Prediction from Tandem Mass Spectra [3.2243643829769586]
液体クロマトグラフィー質量分析法 (LC-MS) によるメタボロミクスとエポゾミックは、生物学的試料中の検出可能な小さな分子を測定することを目的としている。
発見者は、現実的なパフォーマンスベースラインを確立し、重要なボトルネックを特定し、MSに基づいた複合予測をさらに改善するためのガイダンスを提供した。
論文 参考訳(メタデータ) (2026-01-02T16:20:13Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation [20.973121120131875]
大規模事前学習は、他の領域におけるデータの不足に対処するのに有効であることが証明されている。
質量スペクトルと分子構造を共有トークン語彙にマッピングする統合モデリングフレームワークMS-BARTを提案する。
大規模な評価では、MS-BARTはMassSpecGymとNPLIB1の5/12キーメトリクスでSOTA性能を達成している。
論文 参考訳(メタデータ) (2025-10-23T14:45:28Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - TransPeakNet: Solvent-Aware 2D NMR Prediction via Multi-Task Pre-Training and Unsupervised Learning [5.7279868722119325]
2次元NMRにおけるクロスピーク予測のための教師なしトレーニングフレームワークを提案する。
このアプローチでは、1Hと13Cシフトの注釈付き1Dデータセット上でMLモデルを事前トレーニングし、教師なしの方法で微調整する。
479名のエキスパートアノテートHSQCスペクトルの評価は,従来の手法よりもモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T21:52:51Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z) - Blind Source Separation for NMR Spectra with Negative Intensity [0.0]
我々は、負の強度を含むNMRスペクトル分析のためのブラインド音源分離手法をベンチマークした。
FastICA、SIMPLISMA、NNMFは最高のパフォーマンス技術である。
FastICAとSIMPLISMAの精度は、過剰な(非現実的な)純粋なコンポーネントが予測されると急速に低下する。
論文 参考訳(メタデータ) (2020-02-07T20:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。