論文の概要: MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation
- arxiv url: http://arxiv.org/abs/2510.20615v1
- Date: Thu, 23 Oct 2025 14:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.140378
- Title: MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation
- Title(参考訳): MS-BART:構造解明のための質量スペクトルと分子の統一モデリング
- Authors: Yang Han, Pengyu Wang, Kai Yu, Xin Chen, Lu Chen,
- Abstract要約: 大規模事前学習は、他の領域におけるデータの不足に対処するのに有効であることが証明されている。
質量スペクトルと分子構造を共有トークン語彙にマッピングする統合モデリングフレームワークMS-BARTを提案する。
大規模な評価では、MS-BARTはMassSpecGymとNPLIB1の5/12キーメトリクスでSOTA性能を達成している。
- 参考スコア(独自算出の注目度): 20.973121120131875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mass spectrometry (MS) plays a critical role in molecular identification, significantly advancing scientific discovery. However, structure elucidation from MS data remains challenging due to the scarcity of annotated spectra. While large-scale pretraining has proven effective in addressing data scarcity in other domains, applying this paradigm to mass spectrometry is hindered by the complexity and heterogeneity of raw spectral signals. To address this, we propose MS-BART, a unified modeling framework that maps mass spectra and molecular structures into a shared token vocabulary, enabling cross-modal learning through large-scale pretraining on reliably computed fingerprint-molecule datasets. Multi-task pretraining objectives further enhance MS-BART's generalization by jointly optimizing denoising and translation task. The pretrained model is subsequently transferred to experimental spectra through finetuning on fingerprint predictions generated with MIST, a pre-trained spectral inference model, thereby enhancing robustness to real-world spectral variability. While finetuning alleviates the distributional difference, MS-BART still suffers molecular hallucination and requires further alignment. We therefore introduce a chemical feedback mechanism that guides the model toward generating molecules closer to the reference structure. Extensive evaluations demonstrate that MS-BART achieves SOTA performance across 5/12 key metrics on MassSpecGym and NPLIB1 and is faster by one order of magnitude than competing diffusion-based methods, while comprehensive ablation studies systematically validate the model's effectiveness and robustness.
- Abstract(参考訳): 質量分析法(MS)は分子同定において重要な役割を担い、科学的発見を著しく前進させた。
しかし、アノテートスペクトルの不足により、MSデータからの構造解明は依然として困難である。
大規模事前学習は、他の領域におけるデータの不足に対処する上で有効であることが証明されているが、このパラダイムを質量分析に応用することは、生のスペクトル信号の複雑さと不均一性によって妨げられている。
そこで我々は,質量スペクトルと分子構造を共通トークン語彙にマッピングする統一モデリングフレームワークMS-BARTを提案する。
マルチタスク事前学習の目的は、復調タスクと翻訳タスクを協調的に最適化することで、MS-BARTの一般化をさらに促進する。
事前トレーニングされたモデルは、事前トレーニングされたスペクトル推定モデルであるMISTで生成された指紋予測を微調整し、実世界のスペクトル変動に対する堅牢性を高めることにより、実験用スペクトルに転送される。
微調整は分布の違いを緩和するが、MS-BARTは分子幻覚に悩まされ、さらにアライメントを必要とする。
そこで我々は,モデルが参照構造に近い分子を生成するための化学フィードバック機構を導入する。
大規模な評価では、MS-BARTは、MassSpecGymとNPLIB1の5/12キーメトリクスでSOTA性能を達成し、競合する拡散ベースの手法よりも1桁高速であり、包括的アブレーション研究はモデルの有効性とロバスト性を体系的に検証している。
関連論文リスト
- Language Models Can Understand Spectra: A Multimodal Model for Molecular Structure Elucidation [9.987376780022345]
マルチモーダル分光関節推論をサポートするために設計された,最初の大規模言語モデルであるSpectraLLMを提案する。
連続的および離散的な分光モジュラリティを共有意味空間に統合することにより、SpectraLLMはスペクトル間で一貫性があり相補的な構造パターンを明らかにすることを学ぶ。
我々は、小分子領域におけるSpectraLLMの事前学習と微調整を行い、6つの標準化された公開化学データセットで評価する。
論文 参考訳(メタデータ) (2025-08-04T13:33:38Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [66.41802970528133]
スペクトルからの分子構造解明は化学の基礎的な問題である。
従来の手法は専門家の解釈に大きく依存し、拡張性に欠ける。
マルチモーダルスペクトルデータから2次元および3次元分子構造を直接推定する生成フレームワークであるDiffSpectraを提案する。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Mass Spectra Prediction with Structural Motif-based Graph Neural
Networks [21.71309513265843]
MoMS-Netは、構造モチーフから得られる情報とグラフニューラルネットワーク(GNN)の実装を用いて質量スペクトルを予測するシステムである。
我々は、様々な質量スペクトルでモデルを試験し、既存のモデルよりもその優位性を観察した。
論文 参考訳(メタデータ) (2023-06-28T10:33:57Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。