論文の概要: Contrastive Domain Generalization for Cross-Instrument Molecular Identification in Mass Spectrometry
- arxiv url: http://arxiv.org/abs/2602.00547v1
- Date: Sat, 31 Jan 2026 06:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.250523
- Title: Contrastive Domain Generalization for Cross-Instrument Molecular Identification in Mass Spectrometry
- Title(参考訳): 質量分析におけるクロスインスツルメンタンス分子同定のための対照的領域の一般化
- Authors: Seunghyun Yoo, Sanghong Kim, Namkyung Yoon, Hwangnam Kim,
- Abstract要約: 本稿では,物質スペクトルを化学的に有意な分子構造埋め込み空間にマッピングするクロスモーダルアライメントフレームワークを提案する。
本モデルでは,固定256方向ゼロショット検索においてトップ1の精度42.2%を達成し,グローバル検索条件下での強い一般化を示す。
これらの結果は,MSデータから分子同定における一般化ボトルネックを解決するために,物理スペクトル分解能と分子構造埋め込みを明示的に統合することが重要であることを示唆している。
- 参考スコア(独自算出の注目度): 3.6398652091809987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying molecules from mass spectrometry (MS) data remains a fundamental challenge due to the semantic gap between physical spectral peaks and underlying chemical structures. Existing deep learning approaches often treat spectral matching as a closed-set recognition task, limiting their ability to generalize to unseen molecular scaffolds. To overcome this limitation, we propose a cross-modal alignment framework that directly maps mass spectra into the chemically meaningful molecular structure embedding space of a pretrained chemical language model. On a strict scaffold-disjoint benchmark, our model achieves a Top-1 accuracy of 42.2% in fixed 256-way zero-shot retrieval and demonstrates strong generalization under a global retrieval setting. Moreover, the learned embedding space demonstrates strong chemical coherence, reaching 95.4% accuracy in 5-way 5-shot molecular re-identification. These results suggest that explicitly integrating physical spectral resolution with molecular structure embedding is key to solving the generalization bottleneck in molecular identification from MS data.
- Abstract(参考訳): 質量分析(MS)データから分子を同定することは、物理スペクトルピークと基礎となる化学構造とのセマンティックなギャップのため、依然として根本的な課題である。
既存のディープラーニングアプローチでは、スペクトルマッチングをクローズドセットの認識タスクとして扱うことが多く、見つからない分子足場に一般化する能力を制限する。
この制限を克服するために,物質スペクトルを直接化学的に有意な分子構造にマッピングするクロスモーダルアライメントフレームワークを提案する。
厳密な足場分離ベンチマークでは,固定256方向ゼロショット検索においてTop-1精度42.2%を達成し,グローバル検索条件下での強い一般化を示す。
さらに、学習された埋め込み空間は強い化学コヒーレンスを示し、5-way 5-shot分子の再同定において95.4%の精度に達した。
これらの結果は,MSデータから分子同定における一般化ボトルネックを解決するために,物理スペクトル分解能と分子構造埋め込みを明示的に統合することが重要であることを示唆している。
関連論文リスト
- How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Test-Time Tuned Language Models Enable End-to-end De Novo Molecular Structure Generation from MS/MS Spectra [31.563216077422084]
タンデム質量分析法は、代謝学、天然物発見、環境分析などの重要な分野における未知化合物の同定を可能にする。
テスト時間チューニングを活用することで,事前学習されたトランスフォーマーモデルの学習を向上し,このギャップに対処するフレームワークを導入する。
我々は、NPLIB1とMassSpecGymの2つの人気のあるベンチマークで、DiffMSのデファクトステート・オブ・ザ・アーティカルアプローチを100%と20%上回った。
論文 参考訳(メタデータ) (2025-10-27T18:25:36Z) - MolSpectLLM: A Molecular Foundation Model Bridging Spectroscopy, Molecule Elucidation, and 3D Structure Generation [24.14024904556376]
MolSpectLLMはQwen2.5-7Bで事前訓練された分子基盤モデルであり、分子3D構造と実験的分光を統一する。
MolSpectLLMは、NMR、IR、MSベンチマークで平均0.53の精度でスペクトル関連タスクの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-26T04:37:44Z) - Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。