論文の概要: Taking a Respite from Representation Learning for Molecular Property
Prediction
- arxiv url: http://arxiv.org/abs/2209.13492v3
- Date: Mon, 26 Jun 2023 14:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 00:48:59.032533
- Title: Taking a Respite from Representation Learning for Molecular Property
Prediction
- Title(参考訳): 分子特性予測のための表現学習からの反響
- Authors: Jianyuan Deng, Zhibo Yang, Hehe Wang, Iwao Ojima, Dimitris Samaras,
Fusheng Wang
- Abstract要約: 固定表現の50,220モデル,SMILES配列の4,200モデル,分子グラフの8,400モデルを含む62,820モデルをトレーニングした。
本研究では, 化学空間の一般化について検討し, 活性崖が予測性能に大きく影響することを発見した。
- 参考スコア(独自算出の注目度): 29.0696691142853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) has been widely applied in drug discovery with a
major task as molecular property prediction. Despite booming techniques in
molecular representation learning, fundamentals underlying molecular property
prediction haven't been carefully examined yet. In this study, we conducted a
systematic evaluation on a collection of representative models using various
molecular representations. In addition to the commonly used MoleculeNet
benchmark datasets, we also assembled a suite of opioids-related datasets from
ChEMBL and two additional activity datasets from literature. To interrogate the
basic predictive power, we also assembled a series of descriptors datasets with
varying sizes to evaluate the models' performance. In total, we trained 62,820
models, including 50,220 models on fixed representations, 4,200 models on
SMILES sequences and 8,400 models on molecular graphs. We first conducted
dataset profiling and highlighted the activity-cliffs issue in the
opioids-related datasets. We then conducted rigorous model evaluation and
addressed key questions therein. Furthermore, we examined inter-/intra-scaffold
chemical space generalization and found that activity cliffs significantly can
impact prediction performance. Based on extensive experimentation and rigorous
comparison, representation learning models still show limited performance in
molecular property prediction in most datasets. Finally, we explored into
potential causes why representation learning models fail and highlighted the
importance of dataset size. By taking this respite, we reflected on the
fundamentals underlying molecular property prediction, the awareness of which
can, hopefully, bring better AI techniques in this field.
- Abstract(参考訳): 人工知能(AI)は、分子特性予測として主要なタスクを持つ薬物発見に広く応用されている。
分子表現学習の進歩にもかかわらず、分子特性予測の基礎はまだ慎重に検討されていない。
本研究では,種々の分子表現を用いた代表モデルの集合を体系的に評価した。
一般的なcreativenetベンチマークデータセットに加えて、chemblのオピオイド関連データセットと、文献からの2つの追加アクティビティデータセットも組み立てました。
基本的な予測力を問うため、モデルの性能を評価するために、様々なサイズの記述子データセットを組み立てた。
合計で62,820モデル、固定表現50,220モデル、SMILES配列4,200モデル、分子グラフ8,400モデルを含む。
最初にデータセットのプロファイリングを行い、オピオイド関連データセットのアクティビティ・クリフ問題を強調した。
次に,厳密なモデル評価を行い,そこでの課題に対処した。
さらに, 化学空間の一般化について検討し, 活動崖が予測性能に有意な影響を及ぼすことを見出した。
広範な実験と厳密な比較に基づいて、表現学習モデルはいまだ多くのデータセットで分子特性予測において限られた性能を示している。
最後に、表現学習モデルが失敗する潜在的な原因を調査し、データセットサイズの重要性を強調した。
この繰り返しを取り入れることで、分子特性予測の基礎となる基礎を考察し、その認識がこの分野により良いai技術をもたらすことを願っている。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z) - Advanced Graph and Sequence Neural Networks for Molecular Property
Prediction and Drug Discovery [53.00288162642151]
計算モデルや分子表現にまたがる包括的な機械学習ツール群であるMoleculeKitを開発した。
これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。
オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。
論文 参考訳(メタデータ) (2020-12-02T02:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。