論文の概要: MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation
- arxiv url: http://arxiv.org/abs/2510.20615v1
- Date: Thu, 23 Oct 2025 14:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.140378
- Title: MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation
- Title(参考訳): MS-BART:構造解明のための質量スペクトルと分子の統一モデリング
- Authors: Yang Han, Pengyu Wang, Kai Yu, Xin Chen, Lu Chen,
- Abstract要約: 大規模事前学習は、他の領域におけるデータの不足に対処するのに有効であることが証明されている。
質量スペクトルと分子構造を共有トークン語彙にマッピングする統合モデリングフレームワークMS-BARTを提案する。
大規模な評価では、MS-BARTはMassSpecGymとNPLIB1の5/12キーメトリクスでSOTA性能を達成している。
- 参考スコア(独自算出の注目度): 20.973121120131875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mass spectrometry (MS) plays a critical role in molecular identification, significantly advancing scientific discovery. However, structure elucidation from MS data remains challenging due to the scarcity of annotated spectra. While large-scale pretraining has proven effective in addressing data scarcity in other domains, applying this paradigm to mass spectrometry is hindered by the complexity and heterogeneity of raw spectral signals. To address this, we propose MS-BART, a unified modeling framework that maps mass spectra and molecular structures into a shared token vocabulary, enabling cross-modal learning through large-scale pretraining on reliably computed fingerprint-molecule datasets. Multi-task pretraining objectives further enhance MS-BART's generalization by jointly optimizing denoising and translation task. The pretrained model is subsequently transferred to experimental spectra through finetuning on fingerprint predictions generated with MIST, a pre-trained spectral inference model, thereby enhancing robustness to real-world spectral variability. While finetuning alleviates the distributional difference, MS-BART still suffers molecular hallucination and requires further alignment. We therefore introduce a chemical feedback mechanism that guides the model toward generating molecules closer to the reference structure. Extensive evaluations demonstrate that MS-BART achieves SOTA performance across 5/12 key metrics on MassSpecGym and NPLIB1 and is faster by one order of magnitude than competing diffusion-based methods, while comprehensive ablation studies systematically validate the model's effectiveness and robustness.
- Abstract(参考訳): 質量分析法(MS)は分子同定において重要な役割を担い、科学的発見を著しく前進させた。
しかし、アノテートスペクトルの不足により、MSデータからの構造解明は依然として困難である。
大規模事前学習は、他の領域におけるデータの不足に対処する上で有効であることが証明されているが、このパラダイムを質量分析に応用することは、生のスペクトル信号の複雑さと不均一性によって妨げられている。
そこで我々は,質量スペクトルと分子構造を共通トークン語彙にマッピングする統一モデリングフレームワークMS-BARTを提案する。
マルチタスク事前学習の目的は、復調タスクと翻訳タスクを協調的に最適化することで、MS-BARTの一般化をさらに促進する。
事前トレーニングされたモデルは、事前トレーニングされたスペクトル推定モデルであるMISTで生成された指紋予測を微調整し、実世界のスペクトル変動に対する堅牢性を高めることにより、実験用スペクトルに転送される。
微調整は分布の違いを緩和するが、MS-BARTは分子幻覚に悩まされ、さらにアライメントを必要とする。
そこで我々は,モデルが参照構造に近い分子を生成するための化学フィードバック機構を導入する。
大規模な評価では、MS-BARTは、MassSpecGymとNPLIB1の5/12キーメトリクスでSOTA性能を達成し、競合する拡散ベースの手法よりも1桁高速であり、包括的アブレーション研究はモデルの有効性とロバスト性を体系的に検証している。
関連論文リスト
- De Novo Molecular Generation from Mass Spectra via Many-Body Enhanced Diffusion [10.739105148401629]
質量スペクトルからのデノボ分子構造生成のための多値拡散フレームワークMBGenを提案する。
多体アテンション機構と高次エッジモデリングを統合することで、MBGenはMS/MSスペクトルに符号化された豊富な構造情報を包括的に活用する。
提案手法は,高次相互作用を効果的に捉え,複雑な異性体および非局所断片化情報に対する感度を高める。
論文 参考訳(メタデータ) (2026-02-02T05:00:00Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra [31.563216077422084]
タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
テスト時間チューニングを活用することで,事前学習されたトランスフォーマーモデルの学習を向上し,このギャップに対処するフレームワークを導入する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
論文 参考訳(メタデータ) (2025-10-27T18:25:36Z) - Language Models Can Understand Spectra: A Multimodal Model for Molecular Structure Elucidation [9.987376780022345]
マルチモーダル分光関節推論をサポートするために設計された,最初の大規模言語モデルであるSpectraLLMを提案する。
連続的および離散的な分光モジュラリティを共有意味空間に統合することにより、SpectraLLMはスペクトル間で一貫性があり相補的な構造パターンを明らかにすることを学ぶ。
我々は、小分子領域におけるSpectraLLMの事前学習と微調整を行い、6つの標準化された公開化学データセットで評価する。
論文 参考訳(メタデータ) (2025-08-04T13:33:38Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [66.41802970528133]
スペクトルからの分子構造解明は化学の基礎的な問題である。
従来の手法は専門家の解釈に大きく依存し、拡張性に欠ける。
マルチモーダルスペクトルデータから2次元および3次元分子構造を直接推定する生成フレームワークであるDiffSpectraを提案する。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Mass Spectra Prediction with Structural Motif-based Graph Neural
Networks [21.71309513265843]
MoMS-Netは、構造モチーフから得られる情報とグラフニューラルネットワーク(GNN)の実装を用いて質量スペクトルを予測するシステムである。
我々は、様々な質量スペクトルでモデルを試験し、既存のモデルよりもその優位性を観察した。
論文 参考訳(メタデータ) (2023-06-28T10:33:57Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。