論文の概要: One Small Step with Fingerprints, One Giant Leap for emph{De Novo} Molecule Generation from Mass Spectra
- arxiv url: http://arxiv.org/abs/2508.04180v1
- Date: Wed, 06 Aug 2025 08:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.613167
- Title: One Small Step with Fingerprints, One Giant Leap for emph{De Novo} Molecule Generation from Mass Spectra
- Title(参考訳): 質量スペクトルからのEmph{De Novo}分子生成のためのフィンガープリントの1つの小さなステップ
- Authors: Neng Kai Nigel Neo, Lim Jing, Ngoui Yong Zhau Preston, Koh Xue Ting Serene, Bingquan Shen,
- Abstract要約: textscMISTcitepMISTgoldmanAnnotatingMetaboliteMass2023をエンコーダとして使用する。
textscMolForgecitepucakReconstructionLossless Molecular2023をデコーダとして使用する。
我々はこのパイプラインを、質量スペクトルからEmphde novo分子を解明するための強力なベースラインとして位置づける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A common approach to the \emph{de novo} molecular generation problem from mass spectra involves a two-stage pipeline: (1) encoding mass spectra into molecular fingerprints, followed by (2) decoding these fingerprints into molecular structures. In our work, we adopt \textsc{MIST}~\citep{MISTgoldmanAnnotatingMetaboliteMass2023} as the encoder and \textsc{MolForge}~\citep{ucakReconstructionLosslessMolecular2023} as the decoder, leveraging pretraining to enhance performance. Notably, pretraining \textsc{MolForge} proves especially effective, enabling it to serve as a robust fingerprint-to-structure decoder. Additionally, instead of passing the probability of each bit in the fingerprint, thresholding the probabilities as a step function helps focus the decoder on the presence of substructures, improving recovery of accurate molecular structures even when the fingerprints predicted by \textsc{MIST} only moderately resembles the ground truth in terms of Tanimoto similarity. This combination of encoder and decoder results in a tenfold improvement over previous state-of-the-art methods, generating top-1 28\% / top-10 36\% of molecular structures correctly from mass spectra. We position this pipeline as a strong baseline for future research in \emph{de novo} molecule elucidation from mass spectra.
- Abstract(参考訳): 質量スペクトルからの「emph{de novo}」分子生成問題への一般的なアプローチは、(1)質量スペクトルを分子指紋に符号化し、(2)これらの指紋を分子構造に復号する2段階のパイプラインである。
我々は、エンコーダとして \textsc{MIST}~\citep{MISTgoldmanAnnotatingMetaboliteMass2023}、デコーダとして \textsc{MolForge}~\citep{ucakReconstructionLosslessMolecular2023}を採用し、事前トレーニングを利用してパフォーマンスを向上させる。
特に、事前トレーニングの \textsc{MolForge} は特に有効であり、堅牢な指紋から構造へのデコーダとして機能する。
さらに、指紋中の各ビットの確率を通過させる代わりに、ステップ関数として確率を閾値付けすることで、デコーダをサブ構造の存在に集中させ、 \textsc{MIST} によって予測される指紋が、谷本類似性において基底真理にのみ適度に類似している場合でも、正確な分子構造の回復を改善する。
このエンコーダとデコーダの組み合わせは、従来の最先端手法よりも10倍改善され、質量スペクトルから分子構造のトップ-1 28\% / Top-10 36\% を生成する。
我々はこのパイプラインを、質量スペクトルからの分子の解明における将来の研究の強力なベースラインとして位置づける。
関連論文リスト
- De novo molecular structure elucidation from mass spectra via flow matching [5.274388013166468]
我々は,2段階のエンコーダデコーダフローマッチング生成モデルであるMSFlowを開発した。
MSFlowは、分子質量スペクトルの最大45%を対応する分子表現に変換することができる。
論文 参考訳(メタデータ) (2026-02-23T14:52:53Z) - Contrastive Domain Generalization for Cross-Instrument Molecular Identification in Mass Spectrometry [3.6398652091809987]
本稿では,物質スペクトルを化学的に有意な分子構造埋め込み空間にマッピングするクロスモーダルアライメントフレームワークを提案する。
本モデルでは,固定256方向ゼロショット検索においてトップ1の精度42.2%を達成し,グローバル検索条件下での強い一般化を示す。
これらの結果は,MSデータから分子同定における一般化ボトルネックを解決するために,物理スペクトル分解能と分子構造埋め込みを明示的に統合することが重要であることを示唆している。
論文 参考訳(メタデータ) (2026-01-31T06:18:47Z) - Mamba-driven multi-perspective structural understanding for molecular ground-state conformation prediction [69.32436472760712]
本稿では,マンバ駆動型多面的構造理解(MPSU-Mamba)による分子基底状態の局在化手法を提案する。
複雑で多様な分子に対しては、対応する分子構造の包括的認識を構築するために、3種類の専用の走査戦略が検討されている。
QM9 と Molecule3D データセットの実験結果から,MPSU-Mamba が既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-11-10T11:18:32Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra [31.563216077422084]
タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
テスト時間チューニングを活用することで,事前学習されたトランスフォーマーモデルの学習を向上し,このギャップに対処するフレームワークを導入する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
論文 参考訳(メタデータ) (2025-10-27T18:25:36Z) - $\ ext{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition [60.76623665324548]
GTR-Mol-VLMは、2つの重要な革新を特徴とする新しいフレームワークである。
シーケンシャルな原子結合予測を通じて分子グラフを段階的に解析することで、人間の推論をエミュレートする。
MolRec-BenchはOCSRにおけるグラフパーシング精度の詳細な評価のために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-06-09T08:47:10Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Molecular Fingerprints Are Strong Models for Peptide Function Prediction [0.0]
ペプチド特性予測における分子指紋の有効性について検討した。
分子グラフからドメイン固有の特徴抽出が複雑で計算コストのかかるモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-01-29T10:05:27Z) - MADGEN: Mass-Spec attends to De Novo Molecular generation [16.89017809745962]
質量分析データを用いたデノボ分子構造生成のための足場に基づく手法を提案する。
MADGENは、足場検索とスペクトル条件分子生成の2段階で動作する。
我々は3つのデータセット(NIST23、CANOPUS、MassSpecGym)上でMADGENを評価する。
論文 参考訳(メタデータ) (2025-01-03T18:54:26Z) - RFL: Simplifying Chemical Structure Recognition with Ring-Free Language [66.47173094346115]
化学構造を階層的に記述する新しいリング自由言語(RFL)を提案する。
RFLは複雑な分子構造を複数の部分に分解し、特異性と簡潔性の両方を保証する。
分子骨格と個々の環を段階的に予測する骨格生成モジュールからなる普遍的な分子骨格デコーダ(MSD)を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:29:32Z) - JESTR: Joint Embedding Space Technique for Ranking Candidate Molecules for the Annotation of Untargeted Metabolomics Data [8.206379003314925]
本稿ではアノテーションのための新しいパラダイム(JESTR)を紹介する。
分子指紋やスペクトルを明示的に構築する従来のアプローチとは異なり、JESTRはそれらの表現を結合空間に効果的に埋め込む。
JESTRを3つのデータセット上でmol-to-specおよびspec-to-FPアノテーションツールに対して評価する。
論文 参考訳(メタデータ) (2024-11-18T03:03:57Z) - Molecular Identification via Molecular Fingerprint extraction from Atomic Force Microscopy images [0.0]
深層学習モデルは、一定の高さのHR-AFM画像の3Dスタックに符号化された化学情報や構造情報を検索することができる。
本研究では, トポロジカルフィンガーによる分子構造記述の確立により, それらの限界を克服する。
指紋による仮想検診を他のDLモデルによって提供されるグローバルな情報で補完することは可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T13:47:35Z) - Prefix-Tree Decoding for Predicting Mass Spectra from Molecules [12.868704267691125]
我々は、質量スペクトルを分子公式の集合として扱うことにより、分子からの質量スペクトルを予測するための新しい中間戦略を用いる。
質量スペクトル予測タスクにおける有望な実験結果を示す。
論文 参考訳(メタデータ) (2023-03-11T17:44:28Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。