論文の概要: Language Models Can Understand Spectra: A Multimodal Model for Molecular Structure Elucidation
- arxiv url: http://arxiv.org/abs/2508.08441v1
- Date: Mon, 04 Aug 2025 13:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.221277
- Title: Language Models Can Understand Spectra: A Multimodal Model for Molecular Structure Elucidation
- Title(参考訳): 言語モデルはスペクトルを理解する:分子構造解明のためのマルチモーダルモデル
- Authors: Yunyue Su, Jiahui Chen, Zao Jiang, Zhenyi Zhong, Liang Wang, Qiang Liu,
- Abstract要約: マルチモーダル分光関節推論をサポートするために設計された,最初の大規模言語モデルであるSpectraLLMを提案する。
連続的および離散的な分光モジュラリティを共有意味空間に統合することにより、SpectraLLMはスペクトル間で一貫性があり相補的な構造パターンを明らかにすることを学ぶ。
我々は、小分子領域におけるSpectraLLMの事前学習と微調整を行い、6つの標準化された公開化学データセットで評価する。
- 参考スコア(独自算出の注目度): 9.987376780022345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structure elucidation is a fundamental technique for understanding the microscopic composition of matter and is widely applied across various disciplines in the natural sciences and engineering. However, existing methods often rely heavily on prior databases or known structural information, making it difficult to resolve unknown structures. In addition, complex structures typically require the joint analysis of multiple spectroscopic modalities. This process heavily depends on expert domain knowledge and is often accompanied by high costs in terms of both time and instrumentation. To address these challenges, we propose SpectraLLM, the first large language model designed to support multi-modal spectroscopic joint reasoning. SpectraLLM is capable of processing either single or multiple spectroscopic inputs and performing end-to-end structure elucidation. By integrating continuous and discrete spectroscopic modalities into a shared semantic space, SpectraLLM learns to uncover substructural patterns that are consistent and complementary across spectra, enabling precise molecular structure elucidation. We pretrain and fine-tune SpectraLLM in the domain of small molecules, and evaluate it on six standardized, publicly available chemical datasets. The model achieves state-of-the-art performance, significantly outperforming existing approaches trained on single modalities. Notably, SpectraLLM demonstrates strong robustness and generalization even for single-spectrum inference, while its multi-modal reasoning capability further improves the accuracy of structural prediction.
- Abstract(参考訳): 構造解明は物質の微細な組成を理解するための基本的な技術であり、自然科学や工学の様々な分野に広く応用されている。
しかし、既存の手法は、しばしば事前のデータベースや既知の構造情報に大きく依存しているため、未知の構造を解決することは困難である。
さらに、複雑な構造は、通常、複数の分光モジュラリティの合同解析を必要とする。
このプロセスは専門家のドメイン知識に大きく依存しており、時間と計測の両面で高いコストが伴うことが多い。
これらの課題に対処するために、マルチモーダル分光関節推論をサポートするために設計された最初の大規模言語モデルSpectraLLMを提案する。
SpectraLLMは単一または複数の分光入力を処理し、エンドツーエンドの構造決定を行うことができる。
連続的および離散的な分光モジュラリティを共有意味空間に統合することにより、SpectraLLMはスペクトル間で一貫性があり相補的な構造パターンを明らかにすることを学び、正確な分子構造解明を可能にした。
我々は、小分子領域におけるSpectraLLMの事前学習と微調整を行い、6つの標準化された公開化学データセットで評価する。
このモデルは最先端のパフォーマンスを達成し、単一のモダリティで訓練された既存のアプローチを著しく上回っている。
特に、SpectraLLMは単一スペクトルの推論においても強い堅牢性と一般化を示し、そのマルチモーダル推論能力は構造予測の精度をさらに向上させる。
関連論文リスト
- DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [66.41802970528133]
スペクトルからの分子構造解明は化学の基礎的な問題である。
従来の手法は専門家の解釈に大きく依存し、拡張性に欠ける。
マルチモーダルスペクトルデータから2次元および3次元分子構造を直接推定する生成フレームワークであるDiffSpectraを提案する。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - Towards a Unified Textual Graph Framework for Spectral Reasoning via Physical and Chemical Information Fusion [33.53441350137292]
本稿では,先行知識グラフと大規模言語モデルを統合する,新しいマルチモーダルスペクトル分析フレームワークを提案する。
本手法は,物理スペクトル測定と化学構造セマンティクスを統一的なテクスチャグラフ形式で表現することで橋渡しする。
本フレームワークは,ノードレベル,エッジレベル,グラフレベルなど,複数のスペクトル分析タスクにおいて一貫したパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-21T16:58:30Z) - Spectra-to-Structure and Structure-to-Spectra Inference Across the Periodic Table [60.78615287040791]
XAStructは結晶構造からXASスペクトルを予測し、XAS入力から局所構造記述子を推測できる学習フレームワークである。
XAStructは、周期表全体にわたって70以上の要素にまたがる大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2025-06-13T15:58:05Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry [0.1747623282473278]
このデータセットは、特許データから化学反応から抽出された790k分子の1ドルH-NMR、13ドルC-NMR、HSQC-NMR、赤外線、質量スペクトルからなる。
本研究では, 構造解明, 対象分子のスペクトル予測, 機能群予測などの単一モダリティタスクを評価するためのベンチマークを行う。
論文 参考訳(メタデータ) (2024-07-04T12:52:48Z) - Compositional Representation of Polymorphic Crystalline Materials [56.80318252233511]
PCRLは,構成の確率論的モデリングを用いて,利用可能な構造情報から多型を抽出する手法である。
16のデータセットに対する広範囲な評価は、構成表現の学習におけるPCRLの有効性を示す。
論文 参考訳(メタデータ) (2023-11-17T20:34:28Z) - Decoding Structure-Spectrum Relationships with Physically Organized
Latent Spaces [6.36075035468233]
構造スペクトル関係の発見のための半教師付き機械学習手法を開発し,実証した。
本手法は,個々の構造記述子とスペクトル傾向の1対1マッピングを構成する。
RankAAE法は連続的かつ解釈可能な潜在空間を生成し、各次元は個々の構造記述子を追跡することができる。
論文 参考訳(メタデータ) (2023-01-11T21:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。