論文の概要: Taking a Respite from Representation Learning for Molecular Property
Prediction
- arxiv url: http://arxiv.org/abs/2209.13492v1
- Date: Mon, 26 Sep 2022 14:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:07:37.610942
- Title: Taking a Respite from Representation Learning for Molecular Property
Prediction
- Title(参考訳): 分子特性予測のための表現学習からの反響
- Authors: Jianyuan Deng, Zhibo Yang, Hehe Wang, Iwao Ojima, Dimitris Samaras,
Fusheng Wang
- Abstract要約: 分子表現学習におけるAI技術のブームにもかかわらず、分子特性予測の根底にあるいくつかの重要な側面はまだ慎重に検討されていない。
我々は,3つの主要な分子表現を用いたランダム森林,モルバート,GROVERの3つの代表モデルについて,系統的な比較を行った。
我々は,4,320の予測モデルを訓練し,学習した表現の有用性を評価した。
- 参考スコア(独自算出の注目度): 29.0696691142853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) has been widely applied in drug discovery with a
major task as molecular property prediction. Despite the boom of AI techniques
in molecular representation learning, some key aspects underlying molecular
property prediction haven't been carefully examined yet. In this study, we
conducted a systematic comparison on three representative models, random
forest, MolBERT and GROVER, which utilize three major molecular
representations, extended-connectivity fingerprints, SMILES strings and
molecular graphs, respectively. Notably, MolBERT and GROVER, are pretrained on
large-scale unlabelled molecule corpuses in a self-supervised manner. In
addition to the commonly used MoleculeNet benchmark datasets, we also assembled
a suite of opioids-related datasets for downstream prediction evaluation. We
first conducted dataset profiling on label distribution and structural
analyses; we also examined the activity cliffs issue in the opioids-related
datasets. Then, we trained 4,320 predictive models and evaluated the usefulness
of the learned representations. Furthermore, we explored into the model
evaluation by studying the effect of statistical tests, evaluation metrics and
task settings. Finally, we dissected the chemical space generalization into
inter-scaffold and intra-scaffold generalization and measured prediction
performance to evaluate model generalizbility under both settings. By taking
this respite, we reflected on the key aspects underlying molecular property
prediction, the awareness of which can, hopefully, bring better AI techniques
in this field.
- Abstract(参考訳): 人工知能(AI)は、分子特性予測として主要なタスクを持つ薬物発見に広く応用されている。
分子表現学習におけるAI技術のブームにもかかわらず、分子特性予測の根底にあるいくつかの重要な側面はまだ慎重に検討されていない。
本研究では, 3つの主要な分子表現, 拡張結合指紋, SMILES文字列, および分子グラフを用いた, ランダム森林, MolBERT および GROVER の3つの代表モデルについて, 系統的比較を行った。
特に、 MolBERT と GROVER は、自己制御された方法で、大規模未標識分子コーパスで事前訓練されている。
一般的なMoreculeNetベンチマークデータセットに加えて、下流予測評価のためのオピオイド関連データセットも組み立てました。
まずラベル分布と構造解析に関するデータセットのプロファイリングを行い,オピオイド関連データセットにおける活動崖問題についても検討した。
次に,予測モデル4,320を訓練し,学習表現の有用性を評価した。
さらに,統計的テスト,評価指標,タスク設定の効果について検討し,モデル評価について検討した。
最後に, 化学空間の一般化をスキャフォールド間およびスキャフォールド内一般化に分解し, モデル一般化性を評価する。
この苦難を乗り越えることで、我々は分子特性予測の根底にある重要な側面を反映し、この分野でより良いAI技術をもたらすことを願っている。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z) - Advanced Graph and Sequence Neural Networks for Molecular Property
Prediction and Drug Discovery [53.00288162642151]
計算モデルや分子表現にまたがる包括的な機械学習ツール群であるMoleculeKitを開発した。
これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。
オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。
論文 参考訳(メタデータ) (2020-12-02T02:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。