論文の概要: Graph-Theoretic Models for the Prediction of Molecular Measurements
- arxiv url: http://arxiv.org/abs/2604.19840v1
- Date: Tue, 21 Apr 2026 09:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.641176
- Title: Graph-Theoretic Models for the Prediction of Molecular Measurements
- Title(参考訳): 分子計測の予測のためのグラフ理論モデル
- Authors: Anna Niane, Prudence Djagba,
- Abstract要約: 本研究は,MoneculeNetの5つのベンチマークデータセットのベースラインである$D(G)$-$(G)$モデルを評価する。
リッジ正規化、グラフ記述子の追加、物理化学的特性、グラディエントブースティングによるアンサンブル学習、ラッソ特徴選択、およびモーガン指紋と位相指標を組み合わせたハイブリッドアプローチを取り入れた体系的な拡張フレームワークが提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-theoretic approaches offer simplicity, interpretability, and low computational cost for molecular property prediction. Among these, the model proposed by Mukwembi and Nyabadza, based on the external activity $D(G)$ and internal activity $ζ(G)$ indices, achieved strong results on a small flavonoid dataset. However, its ability to generalize to larger and chemically diverse datasets has not been tested. This study evaluates the baseline $D(G)$-$ζ(G)$ polynomial model on five benchmark datasets from MoleculeNet, covering biological activity (BACE, 1,513 molecules), lipophilicity (LogP synthetic, 14,610 molecules; LogP experimental, 753 molecules), aqueous solubility (ESOL, 1,128 molecules), and hydration free energy (SAMPL, 642 molecules). The baseline model achieves an average $R^2 = 0.24$, confirming limited transferability. To address this, a systematic enhancement framework is proposed, progressively incorporating Ridge regularization, additional graph descriptors, physicochemical properties, ensemble learning with Gradient Boosting, Lasso feature selection, and a hybrid approach combining topological indices with Morgan fingerprints. The enhanced models raise the average best $R^2$ to 0.79, with individual improvements ranging from 165\% to 274\%. All improvements are statistically significant ($p < 0.001$). A direct comparison with a Graph Convolutional Network under identical experimental conditions shows that the enhanced classical models match or outperform deep learning on all five datasets. Comparison with the recent GNN+PGM hybrid of Djagba et al.\ further confirms competitiveness, with the enhanced models achieving the best results on two datasets and tying on one. The entire framework requires no GPU, trains in under five minutes, and uses only open-source tools, making it accessible for researchers in resource-limited settings.
- Abstract(参考訳): グラフ理論のアプローチは、分子特性予測のための単純さ、解釈可能性、計算コストの低さを提供する。
これらのうち、Mukwembi と Nyabadza が提唱したモデルは、外的活動 $D(G)$ と内的活動 $\(G)$ の指標に基づいて、小さなフラボノイドデータセット上で強い結果を得た。
しかし、より大きく、化学的に多様なデータセットに一般化する能力はテストされていない。
本研究は,生物活性(BACE, 1,513分子),リポフィリシティ(LogP合成,14,610分子,LogP実験,753分子),水溶度(ESOL, 1,128分子),水和自由エネルギー(SAMPL, 642分子)の5つのベンチマークデータセットのベースラインである$D(G)$-$シュ(G)$多項式モデルを評価する。
ベースラインモデルは平均$R^2 = 0.24$を達成し、限られた転送可能性を確認する。
これを解決するために、リッジ正規化、グラフ記述子の追加、物理化学的特性、グラディエントブースティングによるアンサンブル学習、ラッソ特徴選択、およびモーガン指紋とトポロジ指標を組み合わせたハイブリッドアプローチを段階的に取り入れた体系的な拡張フレームワークが提案されている。
改良されたモデルは平均$R^2$を0.79に引き上げ、個々の改善は165\%から274\%となる。
すべての改善は統計的に重要である(p < 0.001$)。
同じ実験条件下でグラフ畳み込みネットワークと直接比較すると、拡張された古典的モデルが5つのデータセットすべてでディープラーニングにマッチするか、より優れています。
Djagba et al \の最近のGNN+PGMハイブリッドと比較すると、競合性はさらに確認されている。
フレームワーク全体がGPUを必要としないため、トレーニングは5分以内で、オープンソースツールのみを使用するため、リソース制限の設定で研究者が利用できる。
関連論文リスト
- Benchmarking GNN Models on Molecular Regression Tasks with CKA-Based Representation Analysis [0.8594140167290097]
分子は一般にSMILES文字列として表現され、固定サイズの分子指紋に容易に変換できる。
これらの指紋は、分子特性予測タスクのためのML/DLモデルを訓練するための特徴ベクトルとして機能する。
GNNは、固定サイズの指紋に依存するのではなく、分子内の固有の構造的関係を学習する。
論文 参考訳(メタデータ) (2026-02-24T05:53:24Z) - M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery [23.60901496004578]
M$3$-20Mは、既存の最大のデータセットの71倍の分子数である。
このデータセットは、一次元SMILES、二次元分子グラフ、三次元分子構造、物理化学的性質、テキスト記述を統合している。
論文 参考訳(メタデータ) (2024-12-08T03:43:07Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Geometric Graph Learning with Extended Atom-Types Features for
Protein-Ligand Binding Affinity Prediction [0.17132914341329847]
我々は、SYBYLのような広範囲な原子タイプを統合することにより、タンパク質-リガンド相互作用の研究のためにグラフベースの学習者をアップグレードする。
我々のアプローチでは、$textsybyltextGGL$-Scoreと$texteciftextGGL$-Scoreの2つの異なるメソッドが生成される。
SYBYL atom-type model $textsybyltextGGL$-Score はすべてのベンチマークで他の手法よりも優れています。
論文 参考訳(メタデータ) (2023-01-15T21:30:21Z) - Gibbs-Helmholtz Graph Neural Network: capturing the temperature
dependency of activity coefficients at infinite dilution [1.290382979353427]
我々は,Gibs-Helmholtz Graph Neural Network (GH-GNN) モデルを構築し,温度の異なる分子系の$ln gamma_ijinfty$を予測する。
本稿では,GH-GNNの性能を連続的かつ離散的に解析し,モデルの適用性領域と予測精度を示す。
論文 参考訳(メタデータ) (2022-12-02T14:25:58Z) - Efficient Chemical Space Exploration Using Active Learning Based on
Marginalized Graph Kernel: an Application for Predicting the Thermodynamic
Properties of Alkanes with Molecular Simulation [10.339394156446982]
分子動力学シミュレーションを用いてデータとグラフニューラルネットワーク(GNN)を生成して予測する。
具体的には、4から19個の炭素原子からなる251,728個のアルカン分子とその液体物性を標的としている。
検証の結果、313個の分子だけが正確なGNNモデルを訓練するのに十分であり、計算テストセットは$rm R2 > 0.99$、実験テストセットは$rm R2 > 0.94$であった。
論文 参考訳(メタデータ) (2022-09-01T14:59:13Z) - MolGraph: a Python package for the implementation of molecular graphs
and graph neural networks with TensorFlow and Keras [51.92255321684027]
MolGraphは、分子機械学習(ML)のためのグラフニューラルネットワーク(GNN)パッケージである
MolGraphは、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。
GNNは分子識別に有用であり,クロマトグラフィー保持時間データの解釈性が向上した。
論文 参考訳(メタデータ) (2022-08-21T18:37:41Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。