論文の概要: Diagnosing Heteroskedasticity and Resolving Multicollinearity Paradoxes in Physicochemical Property Prediction
- arxiv url: http://arxiv.org/abs/2512.24643v2
- Date: Thu, 01 Jan 2026 10:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.751898
- Title: Diagnosing Heteroskedasticity and Resolving Multicollinearity Paradoxes in Physicochemical Property Prediction
- Title(参考訳): 物理化学的性質予測におけるヘテロスケダスト性診断と多成分パラドックスの解決
- Authors: Malikussaid, Septian Caesar Floresko, Ade Romadhony, Isman Kurniawan, Warih Maharani, Hilal Hudan Nuha,
- Abstract要約: PubChem, ChEMBL, eMoleculesデータベースから426,850個の生物活性分子を解析した。
計算された logP 値を予測する線形モデルでは, 重度のヘテロスケダスト性が確認された。
木に基づくアンサンブル法は本質的にヘテロスケダスティック性に強く,予測性能は優れていた。
- 参考スコア(独自算出の注目度): 0.2330146832085843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lipophilicity (logP) prediction remains central to drug discovery, yet linear regression models for this task frequently violate statistical assumptions in ways that invalidate their reported performance metrics. We analyzed 426,850 bioactive molecules from a rigorously curated intersection of PubChem, ChEMBL, and eMolecules databases, revealing severe heteroskedasticity in linear models predicting computed logP values (XLOGP3): residual variance increases 4.2-fold in lipophilic regions (logP greater than 5) compared to balanced regions (logP 2 to 4). Classical remediation strategies (Weighted Least Squares and Box-Cox transformation) failed to resolve this violation (Breusch-Pagan p-value less than 0.0001 for all variants). Tree-based ensemble methods (Random Forest R-squared of 0.764, XGBoost R-squared of 0.765) proved inherently robust to heteroskedasticity while delivering superior predictive performance. SHAP analysis resolved a critical multicollinearity paradox: despite a weak bivariate correlation of 0.146, molecular weight emerged as the single most important predictor (mean absolute SHAP value of 0.573), with its effect suppressed in simple correlations by confounding with topological polar surface area (TPSA). These findings demonstrate that standard linear models face fundamental challenges for computed lipophilicity prediction and provide a principled framework for interpreting ensemble models in QSAR applications.
- Abstract(参考訳): リポフィリシティ(logP)予測は依然として薬物発見の中心であるが、このタスクに対する線形回帰モデルは、報告されたパフォーマンス指標を無効にする方法の統計的仮定にしばしば違反する。
我々はPubChem, ChEMBL, eMoleculesデータベースの厳密に硬化した交差点から426,850個の生物活性分子を解析し, 計算されたlogP値(XLOGP3)を予測する線形モデルにおいて重度のヘテロスケダスト性を明らかにした。
古典的な修復戦略 (Weighted Least Squares と Box-Cox 変換) は、この違反を解決できなかった(すべての変種に対して Breusch-Pagan p-value 0.0001 未満)。
木に基づくアンサンブル法(Random Forest R-squared of 0.764, XGBoost R-squared of 0.765)は本質的にヘテロスケダスティック性に強く、予測性能も優れていた。
分子量は0.146の弱い二変量相関にもかかわらず、単一の最も重要な予測因子として出現し(平均絶対SHAP値は0.573)、その効果はトポロジカル極面領域(TPSA)との単純な相関によって抑制された。
これらの結果から, 標準線形モデルは, 計算されたリポフィリティー予測の基本的な課題に直面し, QSARアプリケーションにおけるアンサンブルモデルを解釈するための基本的枠組みを提供することが示された。
関連論文リスト
- Bootstrapping-based Regularisation for Reducing Individual Prediction Instability in Clinical Risk Prediction Models [2.1127261244588156]
本稿では,ブートストラッププロセスを直接深層ニューラルネットワークのトレーニングに組み込む,ブートストラップに基づく新たな正規化フレームワークを提案する。
このアプローチは、再サンプリングされたデータセット間の予測変数を制約し、固有の安定性特性を持つ単一のモデルを生成する。
提案手法を従来モデルとアンサンブルモデルに対して提案した正規化手法を用いて構築したモデルを評価した。
論文 参考訳(メタデータ) (2026-02-11T20:47:30Z) - Latent Neural-ODE for Model-Informed Precision Dosing: Overcoming Structural Assumptions in Pharmacokinetics [3.0991186209192794]
タクロリムスAUC予測のための遅延正規微分方程式(Latent ODE)に基づく新しいデータ駆動方式を提案する。
このディープラーニングアプローチは、疎い臨床データから個別化されたダイナミクスを直接学習する。
潜在ODEモデルは、標準的な仮定から逸脱した基盤となる生物学的メカニズムであっても、優れた堅牢性を示し、高い精度を維持した。
論文 参考訳(メタデータ) (2026-02-03T07:30:48Z) - CONFIDE: Hallucination Assessment for Reliable Biomolecular Structure Prediction and Design [46.12506067241116]
本稿では,位相的フラストレーションを定量化する自己評価尺度であるCODE(Chain of Diffusion Embeddings)を提案する。
エネルギー的およびトポロジ的視点を組み合わせた統合評価フレームワークであるCONFIDEを提案する。
データ駆動の埋め込みと理論的な洞察を組み合わせることで、CODEとConFIDEは、幅広い生体分子システムで既存の指標より優れています。
論文 参考訳(メタデータ) (2025-11-20T03:38:46Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Counterfactual Probabilistic Diffusion with Expert Models [44.96279296893773]
本稿では,不完全な専門家モデルからのガイダンスを取り入れた時系列拡散に基づくフレームワークを提案する。
我々の方法であるODE-Diffは、機械的およびデータ駆動的なアプローチをブリッジし、より信頼性が高く解釈可能な因果推論を可能にする。
論文 参考訳(メタデータ) (2025-08-18T20:44:32Z) - Asymptotic breakdown point analysis of the minimum density power divergence estimator under independent non-homogeneous setups [2.449909275410287]
最低密度パワー分散推定器 (MDPDE) は、ロバスト推論の文献において大きな注目を集めている。
独立系や非均一系(INH)の観測など、様々な装置でうまく応用されている。
INH設定下におけるこの推定器のグローバルな信頼性や破壊挙動に関する一般的な結果は分かっていない。
論文 参考訳(メタデータ) (2025-08-17T16:33:58Z) - Geometric Multi-color Message Passing Graph Neural Networks for Blood-brain Barrier Permeability Prediction [1.488392495573075]
本稿では,幾何学的多色メッセージパッシンググラフニューラルネットワーク(GMC-MPNN)を提案する。
本モデルは,血液脳関門透過性を規定する空間的関係と化学的文脈を捉えるために,原子タイプに基づく重み付きカラーサブグラフを構築した。
論文 参考訳(メタデータ) (2025-07-25T03:38:46Z) - Penalized Empirical Likelihood for Doubly Robust Causal Inference under Contamination in High Dimensions [0.720409153108429]
低サンプルサイズ方程式における平均処理効果を2倍頑健に推定する手法を提案する。
提案した信頼区間は, 競合する推定値と比較して効率がよいことを示す。
論文 参考訳(メタデータ) (2025-07-23T11:58:54Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - BAPULM: Binding Affinity Prediction using Language Models [7.136205674624813]
本稿では,ProtT5-XL-U50およびMollFormerを介してタンパク質の化学潜伏表現を利用する,革新的な配列ベースフレームワークであるBAPULMを紹介する。
提案手法は,ベンチマーク1k2101, Test2016_290, CSAR-HiQ_36でそれぞれ0.925 $pm$0.043, 0.914 $pm$0.004, 0.8132 $pm$0.0001のシーケンシャルスコアリングパワー(R)値を達成した。
論文 参考訳(メタデータ) (2024-11-06T04:35:30Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - Modeling High-Dimensional Data with Unknown Cut Points: A Fusion
Penalized Logistic Threshold Regression [2.520538806201793]
従来のロジスティック回帰モデルでは、リンク関数は線形で連続であると見なされることが多い。
我々は、全ての連続した特徴が順序レベルに離散化され、さらにバイナリ応答が決定されるしきい値モデルを考える。
糖尿病のような慢性疾患の早期発見と予知の問題において,ラッソモデルが好適であることが判明した。
論文 参考訳(メタデータ) (2022-02-17T04:16:40Z) - Variance Minimization in the Wasserstein Space for Invariant Causal
Prediction [72.13445677280792]
そこで本研究では,ICPで行ったアプローチを,予測器数で線形にスケールする一連の非パラメトリックテストとして再検討する。
これらのテストはそれぞれ、最適輸送理論の道具から導かれる新しい損失関数の最小化に依存している。
我々は,本手法が同定可能な直接原因の集合を回復できるという軽微な仮定の下で証明し,他のベンチマーク因果探索アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2021-10-13T22:30:47Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。