論文の概要: Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry
- arxiv url: http://arxiv.org/abs/2407.17492v1
- Date: Thu, 4 Jul 2024 12:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 17:59:54.689384
- Title: Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry
- Title(参考訳): 分子構造を解き放つ:化学のためのマルチモーダル分光データセット
- Authors: Marvin Alberts, Oliver Schilter, Federico Zipoli, Nina Hartrampf, Teodoro Laino,
- Abstract要約: このデータセットは、特許データから化学反応から抽出された790k分子の1ドルH-NMR、13ドルC-NMR、HSQC-NMR、赤外線、質量スペクトルからなる。
本研究では, 構造解明, 対象分子のスペクトル予測, 機能群予測などの単一モダリティタスクを評価するためのベンチマークを行う。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spectroscopic techniques are essential tools for determining the structure of molecules. Different spectroscopic techniques, such as Nuclear magnetic resonance (NMR), Infrared spectroscopy, and Mass Spectrometry, provide insight into the molecular structure, including the presence or absence of functional groups. Chemists leverage the complementary nature of the different methods to their advantage. However, the lack of a comprehensive multimodal dataset, containing spectra from a variety of spectroscopic techniques, has limited machine-learning approaches mostly to single-modality tasks for predicting molecular structures from spectra. Here we introduce a dataset comprising simulated $^1$H-NMR, $^{13}$C-NMR, HSQC-NMR, Infrared, and Mass spectra (positive and negative ion modes) for 790k molecules extracted from chemical reactions in patent data. This dataset enables the development of foundation models for integrating information from multiple spectroscopic modalities, emulating the approach employed by human experts. Additionally, we provide benchmarks for evaluating single-modality tasks such as structure elucidation, predicting the spectra for a target molecule, and functional group predictions. This dataset has the potential automate structure elucidation, streamlining the molecular discovery pipeline from synthesis to structure determination. The dataset and code for the benchmarks can be found at https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset.
- Abstract(参考訳): 分光技術は分子の構造を決定するのに欠かせない道具である。
核磁気共鳴(NMR)、赤外線分光法、質量分析法などの異なる分光技術は、官能基の存在や欠如を含む分子構造に関する洞察を与える。
化学者は異なる方法の相補的な性質をその利点に活用する。
しかし、様々な分光技術からのスペクトルを含む包括的マルチモーダルデータセットの欠如は、主にスペクトルから分子構造を予測するための単一モーダルタスクに対して、機械学習アプローチに制限がある。
本稿では,特許データから化学反応から抽出した790k分子に対して,$^1$H-NMR,$^{13}$C-NMR,HSQC-NMR,Infrared,Mass Spectra(正イオンモードおよび負イオンモード)を模擬したデータセットを提案する。
このデータセットは、複数の分光法からの情報を統合する基盤モデルの開発を可能にし、人間の専門家によるアプローチをエミュレートする。
さらに、構造解明、対象分子のスペクトルの予測、機能群予測などの単一モードタスクを評価するためのベンチマークも提供する。
このデータセットは、合成から構造決定までの分子発見パイプラインを合理化して、構造解明の可能性を秘めている。
ベンチマークのデータセットとコードはhttps://rxn4chemistry.github.io/multimodal-spectroscopic-datasetにある。
関連論文リスト
- Infrared Spectra Prediction for Diazo Groups Utilizing a Machine
Learning Approach with Structural Attention Mechanism [0.0]
赤外分光法は、分子構造や力学を振動や回転の遷移を通じて解明する化学研究において重要な技術である。
本稿では、特にジアゾ化合物の赤外スペクトルの予測と解釈を強化するために、構造的注意機構を用いた機械学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T15:44:43Z) - Datacube segmentation via Deep Spectral Clustering [76.48544221010424]
拡張ビジョン技術は、しばしばその解釈に挑戦する。
データ立方体スペクトルの巨大な次元性は、その統計的解釈において複雑なタスクを生じさせる。
本稿では,符号化空間における教師なしクラスタリング手法の適用の可能性について検討する。
統計的次元削減はアドホック訓練(可変)オートエンコーダで行い、クラスタリング処理は(学習可能な)反復K-Meansクラスタリングアルゴリズムで行う。
論文 参考訳(メタデータ) (2024-01-31T09:31:28Z) - Carbohydrate NMR chemical shift predictions using E(3) equivariant graph
neural networks [0.0]
この研究は、E(3)同変グラフニューラルネットワークを利用して炭水化物NMRスペクトルを予測する新しいアプローチを導入する。
特に,従来のモデルと比較して,平均絶対誤差を最大3倍に削減した。
この含意は、炭水化物の構造とスペクトル解釈の高度な理解を超えている。
論文 参考訳(メタデータ) (2023-11-21T15:01:14Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - Prefix-Tree Decoding for Predicting Mass Spectra from Molecules [12.868704267691125]
我々は、質量スペクトルを分子公式の集合として扱うことにより、分子からの質量スペクトルを予測するための新しい中間戦略を用いる。
質量スペクトル予測タスクにおける有望な実験結果を示す。
論文 参考訳(メタデータ) (2023-03-11T17:44:28Z) - Decoding Structure-Spectrum Relationships with Physically Organized
Latent Spaces [6.36075035468233]
構造スペクトル関係の発見のための半教師付き機械学習手法を開発し,実証した。
本手法は,個々の構造記述子とスペクトル傾向の1対1マッピングを構成する。
RankAAE法は連続的かつ解釈可能な潜在空間を生成し、各次元は個々の構造記述子を追跡することができる。
論文 参考訳(メタデータ) (2023-01-11T21:30:22Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z) - Gaussian Process Regression for Absorption Spectra Analysis of Molecular
Dimers [68.8204255655161]
本稿では、ガウス過程回帰(GPR)から数値計算のパラメータを選択する機械学習技術に基づくアプローチについて議論する。
このアプローチは最適パラメータ集合に素早く収束するだけでなく、完全なパラメータ空間に関する情報を提供する。
実際、GPRは量子化学法を用いてこれらのパラメータの直接計算と一致した信頼性の高い結果を与える。
論文 参考訳(メタデータ) (2021-12-14T17:46:45Z) - Unsupervised Spectral Unmixing For Telluric Correction Using A Neural
Network Autoencoder [58.720142291102135]
本研究では,HARPS-N線速度スペクトルから高精度の太陽スペクトルを抽出するニューラルネットワークオートエンコーダ手法を提案する。
論文 参考訳(メタデータ) (2021-11-17T12:54:48Z) - Machine Learning for recognition of minerals from multispectral data [1.231476564107544]
本稿では,異なる分光法から得られたデータを組み合わせた鉱物の自動同定手法を提案する。
これらの手法はRaman + VNIR, Raman + LIBS, VNIR + LIBSと組み合わせられ, それぞれに異なるデータ融合法を適用してミネラルを分類した。
また,ラマンスペクトルからミネラル分類を行うDeep Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-28T22:25:15Z) - Two-Dimensional Single- and Multiple-Quantum Correlation Spectroscopy in
Zero-Field Nuclear Magnetic Resonance [55.41644538483948]
Rb気相セル磁気センサを用いてゼロ磁場で検出された1量子および複数量子相関$J$-spectroscopyを示す。
ゼロフィールドでは、エタノールのスペクトルは炭素イソトポマーの混合物として現れ、相関スペクトルは2つの複合スペクトルを分離するのに有用である。
論文 参考訳(メタデータ) (2020-04-09T10:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。