Fugu-MT 論文翻訳(概要): Unraveling Key Elements Underlying Molecular Property Prediction: A Systematic Study

論文の概要: Unraveling Key Elements Underlying Molecular Property Prediction: A Systematic Study

arxiv url: http://arxiv.org/abs/2209.13492v4
Date: Sat, 2 Sep 2023 05:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 07:33:41.389330
Title: Unraveling Key Elements Underlying Molecular Property Prediction: A Systematic Study
Title（参考訳）: 分子特性予測の基礎となるキー要素の探索--系統的研究
Authors: Jianyuan Deng, Zhibo Yang, Hehe Wang, Iwao Ojima, Dimitris Samaras, Fusheng Wang
Abstract要約: 分子特性予測の根底にある重要な要素はほとんど未発見のままである。我々は,MoreculeNetデータセット上の様々な表現を用いて,代表モデルの広範囲な評価を行う。合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む訓練を行った。
参考スコア（独自算出の注目度）: 27.56700461408765
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Artificial intelligence (AI) has been widely applied in drug discovery with a major task as molecular property prediction. Despite booming techniques in molecular representation learning, key elements underlying molecular property prediction remain largely unexplored, which impedes further advancements in this field. Herein, we conduct an extensive evaluation of representative models using various representations on the MoleculeNet datasets, a suite of opioids-related datasets and two additional activity datasets from the literature. To investigate the predictive power in low-data and high-data space, a series of descriptors datasets of varying sizes are also assembled to evaluate the models. In total, we have trained 62,820 models, including 50,220 models on fixed representations, 4,200 models on SMILES sequences and 8,400 models on molecular graphs. Based on extensive experimentation and rigorous comparison, we show that representation learning models exhibit limited performance in molecular property prediction in most datasets. Besides, multiple key elements underlying molecular property prediction can affect the evaluation results. Furthermore, we show that activity cliffs can significantly impact model prediction. Finally, we explore into potential causes why representation learning models can fail and show that dataset size is essential for representation learning models to excel.
Abstract（参考訳）: 人工知能(AI)は、分子特性予測として主要なタスクを持つ薬物発見に広く応用されている。分子表現学習の急激な技術にもかかわらず、分子特性予測の根底にある重要な要素はほとんど探索されていない。本稿では,シグネムネットデータセット,オピオイド関連データセットのスイート,文献から得られた2つの追加アクティビティデータセットを用いて,代表モデルの広範な評価を行う。低データ・高データ空間における予測能力を調べるために、様々なサイズのディスクリプタデータセットを組み立ててモデルを評価する。合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む。大規模な実験と厳密な比較に基づいて,ほとんどのデータセットにおいて,表現学習モデルは分子特性予測において限られた性能を示すことを示す。さらに、分子特性予測の基礎となる複数の重要な要素が評価結果に影響を与える可能性がある。さらに,活動限界がモデル予測に大きな影響を及ぼすことを示す。最後に,表現学習モデルが失敗する可能性について検討し,表現学習モデルにとってデータセットのサイズが重要であることを示す。

関連論文リスト

Unveiling Scaling Behaviors in Molecular Language Models: Effects of Model Size, Data, and Representation [18.008217765253274]
本研究では,分子言語モデルの事前学習タスクと下流タスクのスケーリング挙動について検討する。以上の結果から,分子モデルにおける前処理および下流輸送のスケーリング則が明らかとなった。我々は,分子言語モデルとしてこれまでで最大のライブラリをリリースし,今後の研究開発を促進する。
論文参考訳（メタデータ） (2026-01-30T09:32:12Z)
Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文参考訳（メタデータ） (2025-10-20T17:56:01Z)
Benchmarking Pretrained Molecular Embedding Models For Molecular Representation Learning [0.0]
事前学習されたニューラルネットワークは化学や小さな分子の薬物設計に大きな関心を集めている。本研究は,25データセットにまたがる25モデルについて,これまでで最も広範な比較を行ったものである。
論文参考訳（メタデータ） (2025-08-08T10:29:24Z)
Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文参考訳（メタデータ） (2024-11-03T01:56:15Z)
MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。両者の分子表現の強さを融合させる。ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-11-28T10:28:35Z)
Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文参考訳（メタデータ） (2023-06-02T15:49:45Z)
Atomic and Subgraph-aware Bilateral Aggregation for Molecular Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。 ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文参考訳（メタデータ） (2023-05-22T00:56:00Z)
Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文参考訳（メタデータ） (2023-02-04T01:32:40Z)
Calibration and generalizability of probabilistic models on low-data chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文参考訳（メタデータ） (2022-12-03T08:19:06Z)
Supervised Pretraining for Molecular Force Fields and Properties Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文参考訳（メタデータ） (2022-11-23T08:36:50Z)
Graph neural networks for the prediction of molecular structure-property relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。 GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文参考訳（メタデータ） (2022-07-25T11:30:44Z)
Improving VAE based molecular representations for compound property prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文参考訳（メタデータ） (2022-01-13T12:57:11Z)
Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。 2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文参考訳（メタデータ） (2021-02-16T01:55:34Z)
Advanced Graph and Sequence Neural Networks for Molecular Property Prediction and Drug Discovery [53.00288162642151]
計算モデルや分子表現にまたがる包括的な機械学習ツール群であるMoleculeKitを開発した。これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。
論文参考訳（メタデータ） (2020-12-02T02:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。