論文の概要: Enhancing Drug Discovery: Autoencoder-Based Latent Space Augmentation for Improved Molecular Solubility Prediction using LatMixSol
- arxiv url: http://arxiv.org/abs/2506.00223v1
- Date: Fri, 30 May 2025 20:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.163858
- Title: Enhancing Drug Discovery: Autoencoder-Based Latent Space Augmentation for Improved Molecular Solubility Prediction using LatMixSol
- Title(参考訳): 薬物発見の促進:LatMixSolを用いた分子溶解性予測のためのオートエンコーダによる潜時空間増強
- Authors: Mohammad Saleh Hasankhani,
- Abstract要約: 本稿では,新しいラテント空間拡張フレームワークLatMixSolを提案する。
LatMixSolは、オートエンコーダベースの特徴圧縮と、トレーニングデータを強化するためのガイドを組み合わせたものだ。
分析により,クラスタ誘導潜在空間拡張は,データセットの多様性を拡大しながら,化学的妥当性を保っていることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate prediction of molecular solubility is a cornerstone of early-stage drug discovery, yet conventional machine learning models face significant challenges due to limited labeled data and the high-dimensional nature of molecular descriptors. To address these issues, we propose LatMixSol, a novel latent space augmentation framework that combines autoencoder-based feature compression with guided interpolation to enrich training data. Our approach first encodes molecular descriptors into a low-dimensional latent space using a two-layer autoencoder. Spectral clustering is then applied to group chemically similar molecules, enabling targeted MixUp-style interpolation within clusters. Synthetic samples are generated by blending latent vectors of cluster members and decoding them back to the original feature space. Evaluated on the Huuskonen solubility benchmark, LatMixSol demonstrates consistent improvements across three of four gradient-boosted regressors (CatBoost, LightGBM, HistGradientBoosting), achieving RMSE reductions of 3.2-7.6% and R-squared increases of 0.5-1.5%. Notably, HistGradientBoosting shows the most significant enhancement with a 7.6% RMSE improvement. Our analysis confirms that cluster-guided latent space augmentation preserves chemical validity while expanding dataset diversity, offering a computationally efficient strategy to enhance predictive models in resource-constrained drug discovery pipelines.
- Abstract(参考訳): 分子可溶性の正確な予測は、初期の薬物発見の基盤となっているが、従来の機械学習モデルは、ラベル付きデータや分子記述子の高次元的な性質のために、重大な課題に直面している。
これらの問題に対処するために,自動エンコーダをベースとした特徴圧縮とガイド補間を組み合わせてトレーニングデータを強化する,新しい潜在空間拡張フレームワークであるLatMixSolを提案する。
提案手法はまず分子記述子を2層オートエンコーダを用いて低次元潜在空間に符号化する。
その後、スペクトルクラスタリングが化学類似の分子群に適用され、クラスター内でのMixUpスタイルの補間が可能となる。
合成サンプルは、クラスタメンバーの潜在ベクトルを混合し、元の特徴空間に復号することで生成される。
ハウスコネン溶解度ベンチマークで評価され、LatMixSolは4つの勾配式回帰器(CatBoost、LightGBM、HistGradientBoosting)で一貫した改善を示し、3.2-7.6%のRMSE還元と0.5-1.5%のR-2乗増加を実現した。
特に、HistGradientBoostingは7.6%のRMSE改善で最も顕著な改善を示している。
分析により,クラスタ誘導潜時空間拡張は,データセットの多様性を拡大しながら化学的妥当性を保ち,資源制約された薬物発見パイプラインの予測モデルを改善するための計算効率の良い戦略を提供することを確認した。
関連論文リスト
- DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - MolGraph-xLSTM: A graph-based dual-level xLSTM framework with multi-head mixture-of-experts for enhanced molecular representation and interpretability [9.858315463084084]
MolGraph-xLSTMはグラフベースのxLSTMモデルであり、特徴抽出を強化し、分子の長距離相互作用を効果的にモデル化する。
我々のアプローチは分子グラフを原子レベルとモチーフレベルという2つのスケールで処理する。
MolGraph-xLSTMを10個の分子特性予測データセット上で検証し、分類と回帰の両方のタスクをカバーした。
論文 参考訳(メタデータ) (2025-01-30T15:47:59Z) - Improved Anomaly Detection through Conditional Latent Space VAE Ensembles [49.1574468325115]
条件付きラテント空間変分オートエンコーダ(CL-VAE)は、既知の不整形クラスと未知の不整形クラスを持つデータに対する異常検出のための前処理を改善した。
モデルでは異常検出の精度が向上し、MNISTデータセットで97.4%のAUCが達成された。
さらに、CL-VAEは、アンサンブルの利点、より解釈可能な潜在空間、モデルサイズに制限のある複雑なデータでパターンを学習する能力の増大を示す。
論文 参考訳(メタデータ) (2024-10-16T07:48:53Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Molecular Generative Adversarial Network with Multi-Property Optimization [3.0001188337985236]
GAN(Generative Adversarial Network)のような深層生成モデルは、創薬におけるデノボ$分子生成に用いられている。
本研究では,マルチプロパティ最適化によりトークンレベルで分子を生成するために,InstGANと呼ばれる即時かつグローバルな報酬を持つアクタ批判的RLに基づく新しいGANを提案する。
論文 参考訳(メタデータ) (2024-03-29T08:55:39Z) - Improving Molecular Properties Prediction Through Latent Space Fusion [9.912768918657354]
本稿では,最先端の化学モデルから導出した潜在空間を組み合わせた多視点手法を提案する。
分子構造をグラフとして表現するMHG-GNNの埋め込みと、化学言語に根ざしたMoLFormerの埋め込みである。
本稿では,既存の最先端手法と比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-20T20:29:32Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z) - Optimizing Molecules using Efficient Queries from Property Evaluations [66.66290256377376]
汎用的なクエリベースの分子最適化フレームワークであるQMOを提案する。
QMOは効率的なクエリに基づいて入力分子の所望の特性を改善する。
QMOは, 有機分子を最適化するベンチマークタスクにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:51:18Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。