論文の概要: DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra
- arxiv url: http://arxiv.org/abs/2502.09571v1
- Date: Thu, 13 Feb 2025 18:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:22.289699
- Title: DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra
- Title(参考訳): DiffMS:質量スペクトルを用いた分子の拡散生成
- Authors: Montgomery Bohde, Mrunali Manjrekar, Runzhong Wang, Shuiwang Ji, Connor W. Coley,
- Abstract要約: DiffMSは式制限エンコーダ-デコーダ生成ネットワークである。
我々は、潜伏埋め込みと分子構造を橋渡しする頑健なデコーダを開発する。
実験の結果、DiffMS は $textitde novo$ 分子生成で既存のモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 60.39311767532607
- License:
- Abstract: Mass spectrometry plays a fundamental role in elucidating the structures of unknown molecules and subsequent scientific discoveries. One formulation of the structure elucidation task is the conditional $\textit{de novo}$ generation of molecular structure given a mass spectrum. Toward a more accurate and efficient scientific discovery pipeline for small molecules, we present DiffMS, a formula-restricted encoder-decoder generative network that achieves state-of-the-art performance on this task. The encoder utilizes a transformer architecture and models mass spectra domain knowledge such as peak formulae and neutral losses, and the decoder is a discrete graph diffusion model restricted by the heavy-atom composition of a known chemical formula. To develop a robust decoder that bridges latent embeddings and molecular structures, we pretrain the diffusion decoder with fingerprint-structure pairs, which are available in virtually infinite quantities, compared to structure-spectrum pairs that number in the tens of thousands. Extensive experiments on established benchmarks show that DiffMS outperforms existing models on $\textit{de novo}$ molecule generation. We provide several ablations to demonstrate the effectiveness of our diffusion and pretraining approaches and show consistent performance scaling with increasing pretraining dataset size. DiffMS code is publicly available at https://github.com/coleygroup/DiffMS.
- Abstract(参考訳): 質量分析法は未知の分子の構造やその後の科学的発見の解明に基本的な役割を担っている。
構造解明タスクの1つの定式化は、質量スペクトルを与えられた分子構造の条件付き$\textit{de novo}$生成である。
小分子に対するより正確で効率的な科学的発見パイプラインを目指して,この課題における最先端性能を実現するための定式化エンコーダデコーダ生成ネットワークDiffMSを提案する。
エンコーダはトランスフォーマーアーキテクチャを使用し、ピーク式や中性損失などの質量スペクトル領域の知識をモデル化し、デコーダは既知の化学式の重原子組成に制限された離散グラフ拡散モデルである。
遅延埋め込みや分子構造を橋渡しするロバストデコーダを開発するため,数万個にのぼる構造スペクトル対と比較して,ほぼ無限量の指紋構造対で拡散デコーダを事前訓練する。
確立されたベンチマークでの大規模な実験により、DiffMS は $\textit{de novo}$ 分子生成において既存のモデルよりも優れていた。
我々は、拡散と事前学習のアプローチの有効性を実証し、事前学習データセットのサイズを増大させるとともに、一貫したパフォーマンスのスケーリングを示すために、いくつかのアブリケーションを提供する。
DiffMSコードはhttps://github.com/coleygroup/DiffMSで公開されている。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - CHA2: CHemistry Aware Convex Hull Autoencoder Towards Inverse Molecular
Design [2.169755083801688]
検索空間全体を包括的に探索して、興味のある性質を持つデ・ノヴォ構造を利用することは不可能である。
この課題に対処するために、難解な探索空間を低次元の潜在体積に減らすことで、分子候補をより効果的に調べることができる。
そこで我々は,高いQEDを持つ新規分子を明らかにする効率的な方法として,高いQEDでトップ分子を取り囲む凸ホールを用いて,潜在表現におけるタイトな部分空間を抽出することを提案する。
論文 参考訳(メタデータ) (2023-02-21T21:05:31Z) - Multiresolution Graph Transformers and Wavelet Positional Encoding for
Learning Hierarchical Structures [6.875312133832078]
複数のスケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。
MGTは原子の表現を学習し、それらを有意義な官能基または繰り返し単位に分類することができる。
提案モデルでは, 高分子とペプチドからなるマクロ分子データセットと, 薬物様分子データセットの2つの結果を得た。
論文 参考訳(メタデータ) (2023-02-17T01:32:44Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。