論文の概要: De novo molecular structure elucidation from mass spectra via flow matching
- arxiv url: http://arxiv.org/abs/2602.19912v1
- Date: Mon, 23 Feb 2026 14:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.863069
- Title: De novo molecular structure elucidation from mass spectra via flow matching
- Title(参考訳): フローマッチングによる質量スペクトルからのDe novo分子構造解明
- Authors: Ghaith Mqawass, Tuan Le, Fabian Theis, Djork-Arné Clevert,
- Abstract要約: 我々は,2段階のエンコーダデコーダフローマッチング生成モデルであるMSFlowを開発した。
MSFlowは、分子質量スペクトルの最大45%を対応する分子表現に変換することができる。
- 参考スコア(独自算出の注目度): 5.274388013166468
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mass spectrometry is a powerful and widely used tool for identifying molecular structures due to its sensitivity and ability to profile complex samples. However, translating spectra into full molecular structures is a difficult, under-defined inverse problem. Overcoming this problem is crucial for enabling biological insight, discovering new metabolites, and advancing chemical research across multiple fields. To this end, we develop MSFlow, a two-stage encoder-decoder flow-matching generative model that achieves state-of-the-art performance on the structure elucidation task for small molecules. In the first stage, we adopt a formula-restricted transformer model for encoding mass spectra into a continuous and chemically informative embedding space, while in the second stage, we train a decoder flow matching model to reconstruct molecules from latent embeddings of mass spectra. We present ablation studies demonstrating the importance of using information-preserving molecular descriptors for encoding mass spectra and motivate the use of our discrete flow-based decoder. Our rigorous evaluation demonstrates that MSFlow can accurately translate up to 45 percent of molecular mass spectra into their corresponding molecular representations - an improvement of up to fourteen-fold over the current state-of-the-art. A trained version of MSFlow is made publicly available on GitHub for non-commercial users.
- Abstract(参考訳): 質量分析法(Mass Spectrometry)は、その感度と複雑なサンプルをプロファイルする能力により、分子構造を識別するために強力で広く用いられるツールである。
しかし、スペクトルを完全な分子構造に変換することは困難で、定義されていない逆問題である。
この問題の克服は、生物学的洞察、新しい代謝産物の発見、および複数の分野にわたる化学研究の推進に不可欠である。
そこで我々は,2段階のエンコーダ・デコーダフローマッチング生成モデルであるMSFlowを開発した。
第1段階では、質量スペクトルを連続的かつ化学的に情報的埋め込み空間に符号化する定式化変換器モデルを採用し、第2段階では、質量スペクトルの潜時埋め込みから分子を再構成するためにデコーダフローマッチングモデルを訓練する。
本稿では,情報保存分子記述子を用いてマススペクトルを符号化し,離散フローベースデコーダの利用を動機付けることの重要性を示す。
我々の厳密な評価は、MSFlowが分子質量スペクトルの最大45%を対応する分子表現に正確に翻訳できることを示しています。
MSFlowのトレーニングされたバージョンは、非商用ユーザ向けにGitHubで公開されている。
関連論文リスト
- How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra [31.563216077422084]
タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
テスト時間チューニングを活用することで,事前学習されたトランスフォーマーモデルの学習を向上し,このギャップに対処するフレームワークを導入する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
論文 参考訳(メタデータ) (2025-10-27T18:25:36Z) - DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [68.19129717255053]
本稿では、分子構造解明を条件生成プロセスとして定式化する生成フレームワークであるDiffSpectraについて述べる。
我々の実験では、DiffSpectraが分子構造を正確に解明し、40.76%のトップ-1と99.49%のトップ10を達成している。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - MassSpecGym: A benchmark for the discovery and identification of molecules [21.471140898806315]
我々はMS/MSデータから分子の発見と同定のための最初の包括的なベンチマークであるMassSpecGymを提案する。
当社のベンチマークは,MS/MSスペクトルをラベル付けした高品質な画像集としては最大である。
デ・ノボ分子構造生成、分子検索、スペクトルシミュレーションという3つのMS/MSアノテーションの課題を定義している。
論文 参考訳(メタデータ) (2024-10-30T15:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。