論文の概要: MSAlign: Aligning Molecule and Mass Spectra Foundation Models for Metabolite Identification
- arxiv url: http://arxiv.org/abs/2605.19752v1
- Date: Tue, 19 May 2026 12:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.32592
- Title: MSAlign: Aligning Molecule and Mass Spectra Foundation Models for Metabolite Identification
- Title(参考訳): MSAlign:代謝物同定のための分子・質量スペクトルモデル
- Authors: Paul Krzakala, Gabriel Melo, Camille Lançon, Charlotte Laclau, Rémi Flamary, Etienne Thévenot, Florence d'Alché-Buc,
- Abstract要約: 分子の集合が与えられたMS/MSスペクトルから代謝物の化学構造を復元することからなる分子検索タスクに対処する。
本稿では,表現アライメントとコントラスト学習に基づく最近のアプローチを包含する統合フレームワークを提案する。
MSAlignは実装が簡単で、トレーニングが速く、すべてのベンチマークで既存のアプローチよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 11.133897813950789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately identifying metabolites i.e. small molecules from mass spectrometry data remains a core challenge in metabolomics, with broad applications in drug discovery, environmental analysis, and clinical research. We address the Molecule Retrieval task, which consists in recovering the chemical structure of a metabolite from its MS/MS spectrum given a set of candidate molecules. While the recent release of benchmark datasets such as MassSpecGym and Spectraverse has considerably accelerated the development of novel machine learning approaches, the complexity of data preprocessing pipelines and the lack of unified implementations make methods and results difficult to reproduce and compare. We make three contributions. First, we propose a unified framework encompassing recent approaches based on representation alignment and contrastive learning. Second, we introduce MSAlign, inspired by multimodal alignment in vision-language models, which learns a shared representation space by aligning two frozen foundation models (DreaMS for mass spectra and ChemBERTa for molecules) through lightweight MLP projections trained with a candidate-based contrastive objective. MSAlign is simple to implement, fast to train and consistently outperforms existing approaches across all benchmarks. Third, we investigate a long-standing evaluation problem: data splitting strategies in molecule retrieval implicitly trade off data leakage against domain shift. We formalize this tension by introducing a quantitative measure of distribution shift, and use it to evaluate splitting strategies in existing benchmarks. All datasets, splits, candidate sets, and a unified implementation of MSAlign and baselines are publicly released to support reproducible research.
- Abstract(参考訳): 代謝物、すなわち質量分析データからの小さな分子の正確な同定は、薬物発見、環境分析、臨床研究に広く応用され、代謝学における中心的な課題である。
分子の集合が与えられたMS/MSスペクトルから代謝物の化学構造を復元することからなる分子検索タスクに対処する。
MassSpecGymやSpectraverseといった最近のベンチマークデータセットのリリースは、新しい機械学習アプローチの開発を著しく加速しているが、データ前処理パイプラインの複雑さと統一実装の欠如により、メソッドと結果の再現と比較が困難になっている。
私たちは3つの貢献をします。
まず、表現アライメントとコントラスト学習に基づく最近のアプローチを包含する統合フレームワークを提案する。
第二に、視覚言語モデルにおけるマルチモーダルアライメントにインスパイアされたMSAlignを導入し、2つの凍結基盤モデル(質量スペクトルのDreaMSと分子のChemBERTa)を、候補ベースのコントラッシブな目的で訓練された軽量MLPプロジェクションによって整列することで、共有表現空間を学習する。
MSAlignは実装が簡単で、トレーニングが速く、すべてのベンチマークで既存のアプローチよりも一貫して優れています。
第三に、分子検索におけるデータ分割戦略は、ドメインシフトに対するデータ漏洩を暗黙的に取り除く、長期にわたる評価問題について検討する。
分散シフトの定量的尺度を導入することで,この緊張関係を定式化し,既存のベンチマークで分割戦略を評価する。
すべてのデータセット、分割、候補セット、MSAlignとベースラインの統一実装が公開され、再現可能な研究をサポートする。
関連論文リスト
- A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era [57.5440098776759]
分子特性予測は、量子化学、化学情報学、深層学習を統合し、分子構造と生物学的挙動を結びつける。
この調査は、Quantum、Descriptor Machine Learning、Geometric Deep Learning、Foundation Modelsの4つの補完パラダイムをトレースする。
ベンチマーク分析は、広く使われているデータセットと業界的な視点を反映したデータセットの両方からエビデンスを統合する。
論文 参考訳(メタデータ) (2026-04-17T15:16:33Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra [31.563216077422084]
タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
テスト時間チューニングを活用することで,事前学習されたトランスフォーマーモデルの学習を向上し,このギャップに対処するフレームワークを導入する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
論文 参考訳(メタデータ) (2025-10-27T18:25:36Z) - Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond [38.32974480709081]
機械学習(ML)と人工知能(AI)の急速な出現は、化学に大きな変革をもたらした。
分光・分光データへのこれらの手法の適用は、分光機械学習(SpectraML)と呼ばれるが、いまだに研究が進んでいない。
我々はSpectraMLの統一的なレビューを行い、フォワードタスクと逆タスクの両方に対する最先端のアプローチを体系的に検証する。
論文 参考訳(メタデータ) (2025-02-14T04:07:25Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Graph-based Molecular In-context Learning Grounded on Morgan Fingerprints [28.262593876388397]
In-context Learning (ICL) では、プロパティ予測や分子キャプションなどの分子タスクのための大規模言語モデル(LLM)を、慎重に選択された実演例を入力プロンプトに埋め込む。
しかし、現在の分子タスクのプロンプト検索法は、モーガン指紋のような分子の特徴的類似性に依存しており、これはグローバル分子と原子結合の関係を適切に捉えていない。
本稿では,グローバル分子構造をグラフニューラルネットワーク(GNN)とテキストキャプション(記述)に整合させ,モーガン指紋による局所的特徴類似性を活用する自己教師付き学習手法GAMICを提案する。
論文 参考訳(メタデータ) (2025-02-08T02:46:33Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。