論文の概要: The chemical space of terpenes: insights from data science and AI
- arxiv url: http://arxiv.org/abs/2110.15047v1
- Date: Wed, 27 Oct 2021 12:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 08:12:29.151193
- Title: The chemical space of terpenes: insights from data science and AI
- Title(参考訳): テルペンの化学空間:データサイエンスとAIからの洞察
- Authors: Morteza Hosseini, David M. Pereira
- Abstract要約: テルペン(terpenes)は、化学的、生物学的に重要な多様性を持つ天然物の総称である。
私たちは、テルペンの多様性を特定し、コンパイルし、特徴付けるために、データサイエンスベースのアプローチを採用しています。
- 参考スコア(独自算出の注目度): 0.30458514384586405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Terpenes are a widespread class of natural products with significant chemical
and biological diversity and many of these molecules have already made their
way into medicines. Given the thousands of molecules already described, the
full characterization of this chemical space can be a challenging task when
relying in classical approaches. In this work we employ a data science-based
approach to identify, compile and characterize the diversity of terpenes
currently known in a systematic way. We worked with a natural product database,
COCONUT, from which we extracted information for nearly 60000 terpenes. For
these molecules, we conducted a subclass-by-subclass analysis in which we
highlight several chemical and physical properties relevant to several fields,
such as natural products chemistry, medicinal chemistry and drug discovery,
among others. We were also interested in assessing the potential of this data
for clustering and classification tasks. For clustering, we have applied and
compared k-means with agglomerative clustering, both to the original data and
following a step of dimensionality reduction. To this end, PCA, FastICA, Kernel
PCA, t-SNE and UMAP were used and benchmarked. We also employed a number of
methods for the purpose of classifying terpene subclasses using their
physico-chemical descriptors. Light gradient boosting machine, k-nearest
neighbors, random forests, Gaussian naiive Bayes and Multilayer perceptron,
with the best-performing algorithms yielding accuracy, F1 score, precision and
other metrics all over 0.9, thus showing the capabilities of these approaches
for the classification of terpene subclasses.
- Abstract(参考訳): テルペンは、化学や生物学的にかなりの多様性を持つ幅広い種類の天然物であり、これらの分子の多くは既に薬品化されている。
既に説明されている何千もの分子を考えると、この化学空間の完全なキャラクタリゼーションは、古典的なアプローチに依存すると難しい課題となる。
この研究では、現在体系的な方法で知られているテルペンの多様性を特定し、コンパイルし、特徴づけるために、データサイエンスに基づくアプローチを採用しています。
私たちは、天然製品データベースであるCOCONUTで作業を行い、そこから60000テルペンの情報を抽出しました。
これらの分子についてサブクラス・バイ・サブクラス分析を行い, 天然物化学, 医薬化学, 創薬など, 様々な分野に関連する化学的・物理的性質を明らかにした。
また、このデータのクラスタリングや分類タスクの可能性を評価することにも興味がありました。
クラスタリングでは,k-meansと凝集クラスタリングを,元のデータと次元減少のステップの両方に適用し,比較した。
この目的のために、PCA、FastICA、Kernel PCA、t-SNE、UMAPを使用してベンチマークを行った。
また, テルペンサブクラスを物理化学的記述子を用いて分類する手法を多数導入した。
光勾配上昇装置、k-アネレスト隣接地、ランダム森林、ガウスの内在ベイズおよび多層受容器は, 精度, F1スコア, 精度, その他の測定値が0.9以上であり, テルペンサブクラスの分類にこれらの手法が有効であることを示す。
関連論文リスト
- Hierarchical Matrix Completion for the Prediction of Properties of Binary Mixtures [3.0478550046333965]
データ駆動モデルを改善するための新しいジェネリックアプローチを導入する。
化学のクラスに同じように振る舞うコンポーネントを持ち込み、それらを共同でモデル化します。
クラスタリングを使用すると、クラスタリングなしのCMに比べて予測が大幅に改善される。
論文 参考訳(メタデータ) (2024-10-08T14:04:30Z) - Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - HD-Bind: Encoding of Molecular Structure with Low Precision,
Hyperdimensional Binary Representations [3.3934198248179026]
超次元計算(HDC)は、低精度二進ベクトル算術を活用できる学習パラダイムである。
本稿では,HDCに基づく推論手法が,より複雑な機械学習手法よりも90倍効率が高いことを示す。
論文 参考訳(メタデータ) (2023-03-27T21:21:46Z) - Tree-Based Learning on Amperometric Time Series Data Demonstrates High
Accuracy for Classification [0.0]
計算科学におけるデータ駆動型アプローチを用いて,多様なアンペロメトリデータセットに対する分類法を提案する。
非常に高い予測精度(95%以上)を示す。
これは機械学習のスキームを提案し、特にフルアンペロメトリ時系列データに基づく教師あり学習を提案する最初の研究の1つである。
論文 参考訳(メタデータ) (2023-02-06T09:44:53Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。