論文の概要: Diagnosing Heteroskedasticity and Resolving Multicollinearity Paradoxes in Physicochemical Property Prediction
- arxiv url: http://arxiv.org/abs/2512.24643v2
- Date: Thu, 01 Jan 2026 10:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.751898
- Title: Diagnosing Heteroskedasticity and Resolving Multicollinearity Paradoxes in Physicochemical Property Prediction
- Title(参考訳): 物理化学的性質予測におけるヘテロスケダスト性診断と多成分パラドックスの解決
- Authors: Malikussaid, Septian Caesar Floresko, Ade Romadhony, Isman Kurniawan, Warih Maharani, Hilal Hudan Nuha,
- Abstract要約: PubChem, ChEMBL, eMoleculesデータベースから426,850個の生物活性分子を解析した。
計算された logP 値を予測する線形モデルでは, 重度のヘテロスケダスト性が確認された。
木に基づくアンサンブル法は本質的にヘテロスケダスティック性に強く,予測性能は優れていた。
- 参考スコア(独自算出の注目度): 0.2330146832085843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lipophilicity (logP) prediction remains central to drug discovery, yet linear regression models for this task frequently violate statistical assumptions in ways that invalidate their reported performance metrics. We analyzed 426,850 bioactive molecules from a rigorously curated intersection of PubChem, ChEMBL, and eMolecules databases, revealing severe heteroskedasticity in linear models predicting computed logP values (XLOGP3): residual variance increases 4.2-fold in lipophilic regions (logP greater than 5) compared to balanced regions (logP 2 to 4). Classical remediation strategies (Weighted Least Squares and Box-Cox transformation) failed to resolve this violation (Breusch-Pagan p-value less than 0.0001 for all variants). Tree-based ensemble methods (Random Forest R-squared of 0.764, XGBoost R-squared of 0.765) proved inherently robust to heteroskedasticity while delivering superior predictive performance. SHAP analysis resolved a critical multicollinearity paradox: despite a weak bivariate correlation of 0.146, molecular weight emerged as the single most important predictor (mean absolute SHAP value of 0.573), with its effect suppressed in simple correlations by confounding with topological polar surface area (TPSA). These findings demonstrate that standard linear models face fundamental challenges for computed lipophilicity prediction and provide a principled framework for interpreting ensemble models in QSAR applications.
- Abstract(参考訳): リポフィリシティ(logP)予測は依然として薬物発見の中心であるが、このタスクに対する線形回帰モデルは、報告されたパフォーマンス指標を無効にする方法の統計的仮定にしばしば違反する。
我々はPubChem, ChEMBL, eMoleculesデータベースの厳密に硬化した交差点から426,850個の生物活性分子を解析し, 計算されたlogP値(XLOGP3)を予測する線形モデルにおいて重度のヘテロスケダスト性を明らかにした。
古典的な修復戦略 (Weighted Least Squares と Box-Cox 変換) は、この違反を解決できなかった(すべての変種に対して Breusch-Pagan p-value 0.0001 未満)。
木に基づくアンサンブル法(Random Forest R-squared of 0.764, XGBoost R-squared of 0.765)は本質的にヘテロスケダスティック性に強く、予測性能も優れていた。
分子量は0.146の弱い二変量相関にもかかわらず、単一の最も重要な予測因子として出現し(平均絶対SHAP値は0.573)、その効果はトポロジカル極面領域(TPSA)との単純な相関によって抑制された。
これらの結果から, 標準線形モデルは, 計算されたリポフィリティー予測の基本的な課題に直面し, QSARアプリケーションにおけるアンサンブルモデルを解釈するための基本的枠組みを提供することが示された。
関連論文リスト
- CONFIDE: Hallucination Assessment for Reliable Biomolecular Structure Prediction and Design [46.12506067241116]
本稿では,位相的フラストレーションを定量化する自己評価尺度であるCODE(Chain of Diffusion Embeddings)を提案する。
エネルギー的およびトポロジ的視点を組み合わせた統合評価フレームワークであるCONFIDEを提案する。
データ駆動の埋め込みと理論的な洞察を組み合わせることで、CODEとConFIDEは、幅広い生体分子システムで既存の指標より優れています。
論文 参考訳(メタデータ) (2025-11-20T03:38:46Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Counterfactual Probabilistic Diffusion with Expert Models [44.96279296893773]
本稿では,不完全な専門家モデルからのガイダンスを取り入れた時系列拡散に基づくフレームワークを提案する。
我々の方法であるODE-Diffは、機械的およびデータ駆動的なアプローチをブリッジし、より信頼性が高く解釈可能な因果推論を可能にする。
論文 参考訳(メタデータ) (2025-08-18T20:44:32Z) - Geometric Multi-color Message Passing Graph Neural Networks for Blood-brain Barrier Permeability Prediction [1.488392495573075]
本稿では,幾何学的多色メッセージパッシンググラフニューラルネットワーク(GMC-MPNN)を提案する。
本モデルは,血液脳関門透過性を規定する空間的関係と化学的文脈を捉えるために,原子タイプに基づく重み付きカラーサブグラフを構築した。
論文 参考訳(メタデータ) (2025-07-25T03:38:46Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - BAPULM: Binding Affinity Prediction using Language Models [7.136205674624813]
本稿では,ProtT5-XL-U50およびMollFormerを介してタンパク質の化学潜伏表現を利用する,革新的な配列ベースフレームワークであるBAPULMを紹介する。
提案手法は,ベンチマーク1k2101, Test2016_290, CSAR-HiQ_36でそれぞれ0.925 $pm$0.043, 0.914 $pm$0.004, 0.8132 $pm$0.0001のシーケンシャルスコアリングパワー(R)値を達成した。
論文 参考訳(メタデータ) (2024-11-06T04:35:30Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。