論文の概要: MolSpectLLM: A Molecular Foundation Model Bridging Spectroscopy, Molecule Elucidation, and 3D Structure Generation
- arxiv url: http://arxiv.org/abs/2509.21861v1
- Date: Fri, 26 Sep 2025 04:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.18137
- Title: MolSpectLLM: A Molecular Foundation Model Bridging Spectroscopy, Molecule Elucidation, and 3D Structure Generation
- Title(参考訳): MolSpectLLM:分子基盤モデル架橋分光法、分子解明および3次元構造生成
- Authors: Shuaike Shen, Jiaqing Xie, Zhuo Yang, Antong Zhang, Shuzhou Sun, Ben Gao, Tianfan Fu, Biqing Qi, Yuqiang Li,
- Abstract要約: MolSpectLLMはQwen2.5-7Bで事前訓練された分子基盤モデルであり、分子3D構造と実験的分光を統一する。
分子スペクトルを明示的にモデル化することで、MollSpectLLMはNMR、IR、MSベンチマークで平均0.03の精度でスペクトル関連タスクにおける最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 24.14024904556376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in molecular foundation models have shown impressive performance in molecular property prediction and de novo molecular design, with promising applications in areas such as drug discovery and reaction prediction. Nevertheless, most existing approaches rely exclusively on SMILES representations and overlook both experimental spectra and 3D structural information-two indispensable sources for capturing molecular behavior in real-world scenarios. This limitation reduces their effectiveness in tasks where stereochemistry, spatial conformation, and experimental validation are critical. To overcome these challenges, we propose MolSpectLLM, a molecular foundation model pretrained on Qwen2.5-7B that unifies experimental spectroscopy with molecular 3D structure. By explicitly modeling molecular spectra, MolSpectLLM achieves state-of-the-art performance on spectrum-related tasks, with an average accuracy of 0.53 across NMR, IR, and MS benchmarks. MolSpectLLM also shows strong performance on the spectra analysis task, obtaining 15.5% sequence accuracy and 41.7% token accuracy on Spectra-to-SMILES, substantially outperforming large general-purpose LLMs. More importantly, MolSpectLLM not only achieves strong performance on molecular elucidation tasks, but also generates accurate 3D molecular structures directly from SMILES or spectral inputs, bridging spectral analysis, molecular elucidation, and molecular design.
- Abstract(参考訳): 分子基盤モデルの最近の進歩は、分子特性予測やデノボ分子設計において顕著な性能を示しており、薬物発見や反応予測などの分野において有望な応用が期待されている。
しかし、既存のほとんどのアプローチはSMILES表現にのみ依存しており、実世界のシナリオで分子の振る舞いを捉えるために実験的なスペクトルと3D構造情報の両方を見落としている。
この制限は、立体化学、空間配座、実験的検証が重要となるタスクにおける有効性を低下させる。
これらの課題を克服するために,分子3次元構造と実験分光を統一する分子基盤モデル MolSpectLLM を提案する。
分子スペクトルを明示的にモデル化することで、MollSpectLLMはNMR、IR、MSベンチマークで平均0.03の精度でスペクトル関連タスクにおける最先端のパフォーマンスを達成する。
MolSpectLLMは、スペクトル解析タスクに強い性能を示し、15.5%のシーケンス精度と41.7%のトークン精度をSpectra-to-SMILESで獲得し、大規模な汎用LCMよりも大幅に優れていた。
さらに重要なことは、MolSpectLLMは分子解明のタスクにおいて高い性能を達成するだけでなく、SMILESやスペクトル入力から直接正確な3D分子構造、ブリッジングスペクトル分析、分子解明、分子設計から正確な3D分子構造を生成することである。
関連論文リスト
- $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [66.41802970528133]
スペクトルからの分子構造解明は化学の基礎的な問題である。
従来の手法は専門家の解釈に大きく依存し、拡張性に欠ける。
マルチモーダルスペクトルデータから2次元および3次元分子構造を直接推定する生成フレームワークであるDiffSpectraを提案する。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra [48.52871465095181]
エネルギースペクトルを利用して3次元分子表現(MolSpectra)の事前学習を強化することを提案する。
具体的には,マルチスペクトルエンコーダのSpecFormerを提案する。
コントラスト目標を用いた3Dエンコーダとスペクトルエンコーダの出力の調整により,分子の3Dエンコーダの理解を深める。
論文 参考訳(メタデータ) (2025-02-22T16:34:32Z) - Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Mol-LLM: Multimodal Generalist Molecular LLM with Improved Graph Utilization [8.846705148987652]
分子タスクの幅広い範囲を扱う最初のマルチモーダル・ジェネラリストモデルである Mol-LLM を紹介する。
Mol-LLMは最も包括的な分子LLMベンチマークで最先端または同等の結果が得られる。
論文 参考訳(メタデータ) (2025-02-05T01:14:12Z) - Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry [0.1747623282473278]
このデータセットは、特許データから化学反応から抽出された790k分子の1ドルH-NMR、13ドルC-NMR、HSQC-NMR、赤外線、質量スペクトルからなる。
本研究では, 構造解明, 対象分子のスペクトル予測, 機能群予測などの単一モダリティタスクを評価するためのベンチマークを行う。
論文 参考訳(メタデータ) (2024-07-04T12:52:48Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。