論文の概要: A Scalable Framework for logP Prediction: From Terabyte-Scale Data Integration to Interpretable Ensemble Modeling
- arxiv url: http://arxiv.org/abs/2512.24643v1
- Date: Wed, 31 Dec 2025 05:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.581098
- Title: A Scalable Framework for logP Prediction: From Terabyte-Scale Data Integration to Interpretable Ensemble Modeling
- Title(参考訳): logP予測のためのスケーラブルなフレームワーク:テラバイト規模のデータ統合から解釈可能なアンサンブルモデリングへ
- Authors: Malikussaid, Septian Caesar Floresko, Ade Romadhony, Isman Kurniawan, Warih Maharani, Hilal Hudan Nuha,
- Abstract要約: 本研究は,426850の生物活性化合物を用いたlogP予測のための大規模予測モデルフレームワークを提案する。
データ統合の課題に対処する新しい計算インフラを開発し、100日以上予測された処理時間を3.2時間に短縮した。
- 参考スコア(独自算出の注目度): 0.2330146832085843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study presents a large-scale predictive modeling framework for logP prediction using 426850 bioactive compounds rigorously curated from the intersection of three authoritative chemical databases: PubChem, ChEMBL, and eMolecules. We developed a novel computational infrastructure to address the data integration challenge, reducing processing time from a projected over 100 days to 3.2 hours through byte-offset indexing architecture, a 740-fold improvement. Our comprehensive analysis revealed critical insights into the multivariate nature of lipophilicity: while molecular weight exhibited weak bivariate correlation with logP, SHAP analysis on ensemble models identified it as the single most important predictor globally. We systematically evaluated multiple modeling approaches, discovering that linear models suffered from inherent heteroskedasticity that classical remediation strategies, including weighted least squares and Box-Cox transformation, failed to address. Tree-based ensemble methods, including Random Forest and XGBoost, proved inherently robust to this violation, achieving an R-squared of 0.765 and RMSE of 0.731 logP units on the test set. Furthermore, a stratified modeling strategy, employing specialized models for drug-like molecules (91 percent of dataset) and extreme cases (nine percent), achieved optimal performance: an RMSE of 0.838 for the drug-like subset and an R-squared of 0.767 for extreme molecules, the highest of all evaluated approaches. These findings provide actionable guidance for molecular design, establish robust baselines for lipophilicity prediction using only 2D descriptors, and demonstrate that well-curated, descriptor-based ensemble models remain competitive with state-of-the-art graph neural network architectures.
- Abstract(参考訳): 本研究では,3つの権威化学データベース(PubChem, ChEMBL, eMolecules)の交点から厳密にキュレートされた426850の生物活性化合物を用いたlogP予測のための大規模予測モデルフレームワークを提案する。
我々は,データ統合の課題に対処する新しい計算インフラを開発し,100日を超える予測から,バイトオフセットインデックスアーキテクチャによる処理時間を3.2時間に短縮し,処理時間を740倍に改善した。
分子量はlogPと弱い二変量相関を示したが、アンサンブルモデルにおけるSHAP分析では、世界的に最も重要な予測因子として同定された。
重み付き最小二乗法やBox-Cox変換を含む古典的修復戦略が解決できなかった、本質的にヘテロスケダスティック性に悩まされた線形モデルについて、複数のモデリング手法を体系的に評価した。
ランダムフォレスト (Random Forest) やXGBoost (XGBoost) を含む木に基づくアンサンブル法は本質的にこの違反に対して堅牢であることが証明され、R-2乗法は0.765、RMSEは0.731logP単位となった。
さらに、薬物様分子の特殊モデル(データセットの91%)と極端なケース(91%)を用いた階層化されたモデリング戦略は、薬物様サブセットのRMSEが0.838、極端な分子のR-2乗が0.767、評価されたアプローチの最高である。
これらの知見は、分子設計のための実用的なガイダンスを提供し、2次元記述子のみを使用して脂肪増感予測のための堅牢なベースラインを確立し、十分に計算された記述子ベースのアンサンブルモデルが、最先端のグラフニューラルネットワークアーキテクチャと競合し続けることを実証する。
関連論文リスト
- CONFIDE: Hallucination Assessment for Reliable Biomolecular Structure Prediction and Design [46.12506067241116]
本稿では,位相的フラストレーションを定量化する自己評価尺度であるCODE(Chain of Diffusion Embeddings)を提案する。
エネルギー的およびトポロジ的視点を組み合わせた統合評価フレームワークであるCONFIDEを提案する。
データ駆動の埋め込みと理論的な洞察を組み合わせることで、CODEとConFIDEは、幅広い生体分子システムで既存の指標より優れています。
論文 参考訳(メタデータ) (2025-11-20T03:38:46Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Counterfactual Probabilistic Diffusion with Expert Models [44.96279296893773]
本稿では,不完全な専門家モデルからのガイダンスを取り入れた時系列拡散に基づくフレームワークを提案する。
我々の方法であるODE-Diffは、機械的およびデータ駆動的なアプローチをブリッジし、より信頼性が高く解釈可能な因果推論を可能にする。
論文 参考訳(メタデータ) (2025-08-18T20:44:32Z) - Geometric Multi-color Message Passing Graph Neural Networks for Blood-brain Barrier Permeability Prediction [1.488392495573075]
本稿では,幾何学的多色メッセージパッシンググラフニューラルネットワーク(GMC-MPNN)を提案する。
本モデルは,血液脳関門透過性を規定する空間的関係と化学的文脈を捉えるために,原子タイプに基づく重み付きカラーサブグラフを構築した。
論文 参考訳(メタデータ) (2025-07-25T03:38:46Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - BAPULM: Binding Affinity Prediction using Language Models [7.136205674624813]
本稿では,ProtT5-XL-U50およびMollFormerを介してタンパク質の化学潜伏表現を利用する,革新的な配列ベースフレームワークであるBAPULMを紹介する。
提案手法は,ベンチマーク1k2101, Test2016_290, CSAR-HiQ_36でそれぞれ0.925 $pm$0.043, 0.914 $pm$0.004, 0.8132 $pm$0.0001のシーケンシャルスコアリングパワー(R)値を達成した。
論文 参考訳(メタデータ) (2024-11-06T04:35:30Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。