論文の概要: Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra
- arxiv url: http://arxiv.org/abs/2510.23746v1
- Date: Mon, 27 Oct 2025 18:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.41401
- Title: Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra
- Title(参考訳): MS/MSスペクトルからエンドツーエンドデノボ分子構造生成を可能にするテスト時間調整言語モデル
- Authors: Laura Mismetti, Marvin Alberts, Andreas Krause, Mara Graziani,
- Abstract要約: タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
テスト時間チューニングを活用することで,事前学習されたトランスフォーマーモデルの学習を向上し,このギャップに対処するフレームワークを導入する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
- 参考スコア(独自算出の注目度): 31.563216077422084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tandem Mass Spectrometry enables the identification of unknown compounds in crucial fields such as metabolomics, natural product discovery and environmental analysis. However, current methods rely on database matching from previously observed molecules, or on multi-step pipelines that require intermediate fragment or fingerprint prediction. This makes finding the correct molecule highly challenging, particularly for compounds absent from reference databases. We introduce a framework that, by leveraging test-time tuning, enhances the learning of a pre-trained transformer model to address this gap, enabling end-to-end de novo molecular structure generation directly from the tandem mass spectra and molecular formulae, bypassing manual annotations and intermediate steps. We surpass the de-facto state-of-the-art approach DiffMS on two popular benchmarks NPLIB1 and MassSpecGym by 100% and 20%, respectively. Test-time tuning on experimental spectra allows the model to dynamically adapt to novel spectra, and the relative performance gain over conventional fine-tuning is of 62% on MassSpecGym. When predictions deviate from the ground truth, the generated molecular candidates remain structurally accurate, providing valuable guidance for human interpretation and more reliable identification.
- Abstract(参考訳): タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
しかし、現在の手法は、以前に観測された分子のデータベースマッチングや、中間的なフラグメントや指紋の予測を必要とする多段階パイプラインに依存している。
これにより、特に参照データベースに存在しない化合物に対して、正しい分子の発見は非常に困難である。
テスト時間チューニングを利用して、このギャップに対処するために事前学習されたトランスフォーマーモデルの学習を強化し、タンデム質量スペクトルと分子式から直接エンド・ツー・エンドのデ・ノボ分子構造を生成できるようにし、手動のアノテーションや中間ステップをバイパスするフレームワークを提案する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
実験スペクトルにおけるテストタイムチューニングにより、モデルは新しいスペクトルに動的に適応でき、従来の微調整よりも相対的な性能はMassSpecGymで62%向上する。
予測が根本から逸脱した場合、生成された分子候補は構造的に正確であり、人間の解釈とより信頼性の高い同定のための貴重なガイダンスを提供する。
関連論文リスト
- MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation [20.973121120131875]
大規模事前学習は、他の領域におけるデータの不足に対処するのに有効であることが証明されている。
質量スペクトルと分子構造を共有トークン語彙にマッピングする統合モデリングフレームワークMS-BARTを提案する。
大規模な評価では、MS-BARTはMassSpecGymとNPLIB1の5/12キーメトリクスでSOTA性能を達成している。
論文 参考訳(メタデータ) (2025-10-23T14:45:28Z) - DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [66.41802970528133]
スペクトルからの分子構造解明は化学の基礎的な問題である。
従来の手法は専門家の解釈に大きく依存し、拡張性に欠ける。
マルチモーダルスペクトルデータから2次元および3次元分子構造を直接推定する生成フレームワークであるDiffSpectraを提案する。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - MADGEN: Mass-Spec attends to De Novo Molecular generation [16.89017809745962]
質量分析データを用いたデノボ分子構造生成のための足場に基づく手法を提案する。
MADGENは、足場検索とスペクトル条件分子生成の2段階で動作する。
我々は3つのデータセット(NIST23、CANOPUS、MassSpecGym)上でMADGENを評価する。
論文 参考訳(メタデータ) (2025-01-03T18:54:26Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。