論文の概要: MADGEN -- Mass-Spec attends to De Novo Molecular generation
- arxiv url: http://arxiv.org/abs/2501.01950v1
- Date: Fri, 03 Jan 2025 18:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:11.087305
- Title: MADGEN -- Mass-Spec attends to De Novo Molecular generation
- Title(参考訳): MADGEN-Mass-SpecがDe Novo分子生成に参加
- Authors: Yinkai Wang, Xiaohui Chen, Liping Liu, Soha Hassoun,
- Abstract要約: 質量分析データを用いたデノボ分子構造生成のための足場に基づく手法を提案する。
MADGENは、足場検索とスペクトル条件分子生成の2段階で動作する。
我々は3つのデータセット(NIST23、CANOPUS、MassSpecGym)上でMADGENを評価する。
- 参考スコア(独自算出の注目度): 16.89017809745962
- License:
- Abstract: The annotation (assigning structural chemical identities) of MS/MS spectra remains a significant challenge due to the enormous molecular diversity in biological samples and the limited scope of reference databases. Currently, the vast majority of spectral measurements remain in the "dark chemical space" without structural annotations. To improve annotation, we propose MADGEN (Mass-spec Attends to De Novo Molecular GENeration), a scaffold-based method for de novo molecular structure generation guided by mass spectrometry data. MADGEN operates in two stages: scaffold retrieval and spectra-conditioned molecular generation starting with the scaffold. In the first stage, given an MS/MS spectrum, we formulate scaffold retrieval as a ranking problem and employ contrastive learning to align mass spectra with candidate molecular scaffolds. In the second stage, starting from the retrieved scaffold, we employ the MS/MS spectrum to guide an attention-based generative model to generate the final molecule. Our approach constrains the molecular generation search space, reducing its complexity and improving generation accuracy. We evaluate MADGEN on three datasets (NIST23, CANOPUS, and MassSpecGym) and evaluate MADGEN's performance with a predictive scaffold retriever and with an oracle retriever. We demonstrate the effectiveness of using attention to integrate spectral information throughout the generation process to achieve strong results with the oracle retriever.
- Abstract(参考訳): MS/MSスペクトルのアノテーション(構造化学的アイデンティティを割り当てる)は、生物学的サンプルの膨大な分子多様性と参照データベースの範囲が限られているため、依然として重要な課題である。
現在、スペクトル測定の大部分は、構造的アノテーションなしで「暗黒化学空間」に残っている。
そこで本研究では,MADGEN(Mass-spec Attends to De Novo Molecular GENeration)を提案する。
MADGENは、足場検索と、足場から始まるスペクトル条件の分子生成の2段階で動作する。
第一段階では、MS/MSスペクトルが与えられた場合、分類問題として足場検索を定式化し、コントラスト学習を用いて質量スペクトルを分子足場候補と整合させる。
第2段階では、抽出した足場から、MS/MSスペクトルを用いて、注意に基づく生成モデルを作成し、最終分子を生成する。
提案手法は分子生成探索空間を制約し,その複雑さを低減し,生成精度を向上させる。
我々は,3つのデータセット(NIST23,CANOPUS,MassSpecGym)上でMADGENを評価し,予測足場検索器とオラクル検索器を用いてMADGENの性能を評価する。
本研究は, オラクルレトリバーによる強い結果を得るために, スペクトル情報の統合に注意をあてることの有効性を実証する。
関連論文リスト
- JESTR: Joint Embedding Space Technique for Ranking Candidate Molecules for the Annotation of Untargeted Metabolomics Data [8.964879518873591]
アノテーションのための新しいパラダイム(JESTR)を導入する。
分子指紋やスペクトルを明示的に構築する以前のアプローチとは異なり、JESTRはそれらの表現を共同空間に埋め込む。
JESTRを3つのデータセット上でmol-to-specおよびspec-to-FPアノテーションツールに対して評価する。
論文 参考訳(メタデータ) (2024-11-18T03:03:57Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MassSpecGym: A benchmark for the discovery and identification of molecules [21.471140898806315]
我々はMS/MSデータから分子の発見と同定のための最初の包括的なベンチマークであるMassSpecGymを提案する。
当社のベンチマークは,MS/MSスペクトルをラベル付けした高品質な画像集としては最大である。
これは、3つのMS/MSアノテーションの課題を定義している: textitde novo 分子構造の生成、分子検索、スペクトルシミュレーションである。
論文 参考訳(メタデータ) (2024-10-30T15:08:05Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - De-novo Identification of Small Molecules from Their GC-EI-MS Spectra [0.0]
機械学習に基づくエンフデノボ法は、その質量スペクトルから直接分子構造を導出する手法が近年注目されている。
本稿では,GC-EI-MS スペクトルの特定の利用例に対処するアノベル法について述べる。
論文 参考訳(メタデータ) (2023-04-04T08:46:00Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - Ensemble Spectral Prediction (ESP) Model for Metabolite Annotation [10.640447979978436]
メタボロミクスの鍵となる課題は、化学的なアイデンティティを持つ生物学的サンプルから測定されたスペクトルを注釈付けすることである。
メタボライトアノテーションのための新しい機械学習モデルEnsemble Spectral Prediction (ESP)を提案する。
論文 参考訳(メタデータ) (2022-03-25T17:05:41Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。