論文の概要: MassSpecGym: A benchmark for the discovery and identification of molecules
- arxiv url: http://arxiv.org/abs/2410.23326v2
- Date: Tue, 14 Jan 2025 22:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 19:05:15.839699
- Title: MassSpecGym: A benchmark for the discovery and identification of molecules
- Title(参考訳): MassSpecGym:分子の発見と同定のためのベンチマーク
- Authors: Roman Bushuiev, Anton Bushuiev, Niek F. de Jonge, Adamo Young, Fleming Kretschmer, Raman Samusevich, Janne Heirman, Fei Wang, Luke Zhang, Kai Dührkop, Marcus Ludwig, Nils A. Haupt, Apurva Kalia, Corinna Brungs, Robin Schmid, Russell Greiner, Bo Wang, David S. Wishart, Li-Ping Liu, Juho Rousu, Wout Bittremieux, Hannes Rost, Tytus D. Mak, Soha Hassoun, Florian Huber, Justin J. J. van der Hooft, Michael A. Stravs, Sebastian Böcker, Josef Sivic, Tomáš Pluskal,
- Abstract要約: 我々はMS/MSデータから分子の発見と同定のための最初の包括的なベンチマークであるMassSpecGymを提案する。
当社のベンチマークは,MS/MSスペクトルをラベル付けした高品質な画像集としては最大である。
これは、3つのMS/MSアノテーションの課題を定義している: textitde novo 分子構造の生成、分子検索、スペクトルシミュレーションである。
- 参考スコア(独自算出の注目度): 21.471140898806315
- License:
- Abstract: The discovery and identification of molecules in biological and environmental samples is crucial for advancing biomedical and chemical sciences. Tandem mass spectrometry (MS/MS) is the leading technique for high-throughput elucidation of molecular structures. However, decoding a molecular structure from its mass spectrum is exceptionally challenging, even when performed by human experts. As a result, the vast majority of acquired MS/MS spectra remain uninterpreted, thereby limiting our understanding of the underlying (bio)chemical processes. Despite decades of progress in machine learning applications for predicting molecular structures from MS/MS spectra, the development of new methods is severely hindered by the lack of standard datasets and evaluation protocols. To address this problem, we propose MassSpecGym -- the first comprehensive benchmark for the discovery and identification of molecules from MS/MS data. Our benchmark comprises the largest publicly available collection of high-quality labeled MS/MS spectra and defines three MS/MS annotation challenges: \textit{de novo} molecular structure generation, molecule retrieval, and spectrum simulation. It includes new evaluation metrics and a generalization-demanding data split, therefore standardizing the MS/MS annotation tasks and rendering the problem accessible to the broad machine learning community. MassSpecGym is publicly available at \url{https://github.com/pluskal-lab/MassSpecGym}.
- Abstract(参考訳): 生物・環境試料中の分子の発見と同定は、生物医学・化学科学の発展に不可欠である。
タンデム質量分析法(Tandem mass spectrometry, MS/MS)は、分子構造を高速に解明する技術である。
しかし、分子構造を質量スペクトルから復号することは、人間の専門家が行ったとしても非常に難しい。
その結果、取得したMS/MSスペクトルの大部分は未解釈のままであり、それによって基礎となる(バイオ)化学過程の理解が制限される。
MS/MSスペクトルから分子構造を予測する機械学習の応用が何十年にもわたって進歩してきたが、標準データセットや評価プロトコルの欠如により、新しい手法の開発が著しく妨げられている。
この問題に対処するため、MS/MSデータから分子の発見と同定を行うための最初の包括的なベンチマークであるMassSpecGymを提案する。
提案ベンチマークは,MS/MSスペクトルの高画質化と,分子構造生成,分子検索,スペクトルシミュレーションの3つのMS/MSアノテーションの課題を定義した。
新しい評価指標と一般化要求データ分割が含まれており、MS/MSアノテーションのタスクを標準化し、幅広い機械学習コミュニティにアクセス可能な問題をレンダリングする。
MassSpecGym は \url{https://github.com/pluskal-lab/MassSpecGym} で公開されている。
関連論文リスト
- Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry [0.1747623282473278]
このデータセットは、特許データから化学反応から抽出された790k分子の1ドルH-NMR、13ドルC-NMR、HSQC-NMR、赤外線、質量スペクトルからなる。
本研究では, 構造解明, 対象分子のスペクトル予測, 機能群予測などの単一モダリティタスクを評価するためのベンチマークを行う。
論文 参考訳(メタデータ) (2024-07-04T12:52:48Z) - Machine learning meets mass spectrometry: a focused perspective [0.0]
質量分析法 (Mass Spectrometry) は、医学、生命科学、化学、工業製品の品質管理などの分野で広く用いられている方法である。
いくつかの質量分析技術の主な特徴の1つは、広範囲のキャラクタリゼーションレベルと、測定毎に生成される大量のデータである。
機械学習の手法の開発によって、これらのデータの可能性を解き放つ機会が生まれ、これまでアクセス不能だった発見が可能になる。
論文 参考訳(メタデータ) (2024-06-27T14:18:23Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - De-novo Identification of Small Molecules from Their GC-EI-MS Spectra [0.0]
機械学習に基づくエンフデノボ法は、その質量スペクトルから直接分子構造を導出する手法が近年注目されている。
本稿では,GC-EI-MS スペクトルの特定の利用例に対処するアノベル法について述べる。
論文 参考訳(メタデータ) (2023-04-04T08:46:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z) - Machine-learning-enhanced time-of-flight mass spectrometry analysis [10.16825220733013]
我々は、現代の機械学習技術を活用して、飛行時間帯の質量スペクトルのピークパターンをマイクロ秒内に同定する手法を提案する。
提案手法は、異なる時間飛行質量分析法(ToF-MS)技術から生成された質量スペクトルをクロスバリデーションし、ToF-MSコミュニティにオープンソースでインテリジェントな質量スペクトル分析を提供する。
論文 参考訳(メタデータ) (2020-10-02T14:35:47Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。