論文の概要: GlycoNMR: Dataset and benchmarks for NMR chemical shift prediction of
carbohydrates with graph neural networks
- arxiv url: http://arxiv.org/abs/2311.17134v2
- Date: Thu, 30 Nov 2023 02:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 12:24:45.473688
- Title: GlycoNMR: Dataset and benchmarks for NMR chemical shift prediction of
carbohydrates with graph neural networks
- Title(参考訳): GlycoNMR:グラフニューラルネットワークを用いた炭水化物のNMR化学シフト予測のためのデータセットとベンチマーク
- Authors: Zizhang Chen, Ryan Paul Badman, Lachele Foley, Robert Woods, Pengyu
Hong
- Abstract要約: 分子表現学習(MRL)は、機械学習と化学科学のギャップを埋めるための強力なツールである。
MRLはタンパク質と一般的な生体分子のデータセットで大きな成功を収めた。
グリコNMRには、2,609の炭水化物構造と211,543のアノテート核磁気共鳴(NMR)化学シフトがある。
- 参考スコア(独自算出の注目度): 3.5248694676821484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Molecular representation learning (MRL) is a powerful tool for bridging the
gap between machine learning and chemical sciences, as it converts molecules
into numerical representations while preserving their chemical features. These
encoded representations serve as a foundation for various downstream
biochemical studies, including property prediction and drug design. MRL has had
great success with proteins and general biomolecule datasets. Yet, in the
growing sub-field of glycoscience (the study of carbohydrates, where longer
carbohydrates are also called glycans), MRL methods have been barely explored.
This under-exploration can be primarily attributed to the limited availability
of comprehensive and well-curated carbohydrate-specific datasets and a lack of
Machine learning (ML) pipelines specifically tailored to meet the unique
problems presented by carbohydrate data. Since interpreting and annotating
carbohydrate-specific data is generally more complicated than protein data,
domain experts are usually required to get involved. The existing MRL methods,
predominately optimized for proteins and small biomolecules, also cannot be
directly used in carbohydrate applications without special modifications. To
address this challenge, accelerate progress in glycoscience, and enrich the
data resources of the MRL community, we introduce GlycoNMR. GlycoNMR contains
two laboriously curated datasets with 2,609 carbohydrate structures and 211,543
annotated nuclear magnetic resonance (NMR) chemical shifts for precise
atomic-level prediction. We tailored carbohydrate-specific features and adapted
existing MRL models to tackle this problem effectively. For illustration, we
benchmark four modified MRL models on our new datasets.
- Abstract(参考訳): 分子表現学習(mrl)は、分子を化学特性を維持しながら数値表現に変換するため、機械学習と化学科学の間のギャップを埋める強力なツールである。
これらのエンコード表現は、特性予測や薬物設計を含む様々な下流生化学研究の基盤となる。
MRLはタンパク質と一般的な生体分子のデータセットで大きな成功を収めた。
しかし、糖科学の亜分野(炭水化物の研究、長鎖の炭水化物もグリカンと呼ばれる)では、MRL法はほとんど研究されていない。
このアンダー探索は、主に、炭水化物データによって引き起こされる固有の問題を満たすように特別に調整された、包括的で十分に計算された炭水化物固有のデータセットと機械学習(ML)パイプラインの欠如による。
炭水化物固有のデータの解釈と注釈は一般にタンパク質データよりも複雑であるため、ドメインの専門家が関与する必要がある。
タンパク質や小さな生体分子に優先的に最適化された既存のmrl法は、特別な修飾なしでは直接炭水化物に使用できない。
この課題に対処し、グリコサイエンスの進歩を加速し、MRLコミュニティのデータ資源を充実させるため、GlycoNMRを導入する。
グリコNMRは、2,609の炭水化物構造と211,543のアノテート核磁気共鳴(NMR)化学シフトを持つ、2つの熱処理されたデータセットを含んでいる。
我々は, 炭水化物特有の特徴と既存のMRLモデルを用いて, この問題を効果的に解決した。
図は、新しいデータセットで4つの修正MRLモデルをベンチマークする。
関連論文リスト
- Carbohydrate NMR chemical shift predictions using E(3) equivariant graph
neural networks [0.0]
この研究は、E(3)同変グラフニューラルネットワークを利用して炭水化物NMRスペクトルを予測する新しいアプローチを導入する。
特に,従来のモデルと比較して,平均絶対誤差を最大3倍に削減した。
この含意は、炭水化物の構造とスペクトル解釈の高度な理解を超えている。
論文 参考訳(メタデータ) (2023-11-21T15:01:14Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - MolCAP: Molecular Chemical reActivity pretraining and
prompted-finetuning enhanced molecular representation learning [3.179128580341411]
MolCAPは、化学反応性(IMR)知識に基づくグラフ事前学習トランスフォーマーであり、微調整を誘導する。
MolCAPによって推進され、基礎的なグラフニューラルネットワークでさえ、以前のモデルを上回る驚くべきパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2023-06-13T13:48:06Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - A Systematic Comparison Study on Hyperparameter Optimisation of Graph
Neural Networks for Molecular Property Prediction [8.02401104726362]
グラフニューラルネットワーク(GNN)は、幅広いグラフ関連学習タスクに対して提案されている。
近年,分子特性の予測に応用されたGNNシステムが増えてきている。
論文 参考訳(メタデータ) (2021-02-08T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。