論文の概要: CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction
- arxiv url: http://arxiv.org/abs/2506.08059v1
- Date: Mon, 09 Jun 2025 07:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.258683
- Title: CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction
- Title(参考訳): CaliciBoost: Caco-2透過性予測のための分子表現の性能駆動評価
- Authors: Huong Van Le, Weibin Ren, Junhong Kim, Yukyung Yun, Young Bin Park, Young Jun Kim, Bok Kyung Han, Inho Choi, Jong IL Park, Hwi-Yeol Yun, Jae-Mun Choi,
- Abstract要約: Caco-2の透過性は、初期薬物発見時の薬物候補の経口吸収を予測する重要なin vitro指標となる。
本研究では,2D/3D記述子,構造指紋,深層学習に基づく埋め込みを含む8種類の分子的特徴表現の影響について検討した。
PaDELとMordredの両方の表現に対して、3Dディスクリプタは2D機能のみを使用する場合に比べて15.73%削減された。
- 参考スコア(独自算出の注目度): 2.6621416538504827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Caco-2 permeability serves as a critical in vitro indicator for predicting the oral absorption of drug candidates during early-stage drug discovery. To enhance the accuracy and efficiency of computational predictions, we systematically investigated the impact of eight molecular feature representation types including 2D/3D descriptors, structural fingerprints, and deep learning-based embeddings combined with automated machine learning techniques to predict Caco-2 permeability. Using two datasets of differing scale and diversity (TDC benchmark and curated OCHEM data), we assessed model performance across representations and identified PaDEL, Mordred, and RDKit descriptors as particularly effective for Caco-2 prediction. Notably, the AutoML-based model CaliciBoost achieved the best MAE performance. Furthermore, for both PaDEL and Mordred representations, the incorporation of 3D descriptors resulted in a 15.73% reduction in MAE compared to using 2D features alone, as confirmed by feature importance analysis. These findings highlight the effectiveness of AutoML approaches in ADMET modeling and offer practical guidance for feature selection in data-limited prediction tasks.
- Abstract(参考訳): Caco-2の透過性は、初期薬物発見時の薬物候補の経口吸収を予測する重要なin vitro指標となる。
計算予測の精度と効率を向上させるため,2D/3Dディスクリプタ,構造指紋,深層学習ベース埋め込みを含む8種類の分子的特徴表現タイプと,自動機械学習技術と組み合わせてCaco-2透過性を予測することによる影響を系統的に検討した。
異なるスケールと多様性の2つのデータセット(TDCベンチマークとOCHEMデータ)を用いて、表現間のモデル性能を評価し、Caco-2予測に特に有効なPaDEL、Mordred、RDKit記述子を同定した。
特に、AutoMLベースのモデルであるCaliciBoostは、最高のMAEパフォーマンスを達成した。
さらに、PaDELとMordredの両方の表現において、3Dディスクリプタの組み入れにより、2Dの特徴のみを使用する場合と比較して15.73%のMAEが削減された。
これらの結果は、ADMETモデリングにおけるAutoMLアプローチの有効性を強調し、データ制限予測タスクにおける特徴選択のための実用的なガイダンスを提供する。
関連論文リスト
- SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Development and Comparative Analysis of Machine Learning Models for Hypoxemia Severity Triage in CBRNE Emergency Scenarios Using Physiological and Demographic Data from Medical-Grade Devices [0.0]
グラディエントブースティングモデル(GBM)は、トレーニング速度、解釈可能性、信頼性の点で、シーケンシャルモデルを上回った。
タイムリーな介入のために5分間の予測ウィンドウが選択された。
本研究は、トリアージを改善し、アラーム疲労を軽減するMLの可能性を強調した。
論文 参考訳(メタデータ) (2024-10-30T23:24:28Z) - CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding [62.075029712357]
本研究は認知拡散確率モデル(CogDPM)を紹介する。
CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。
我々は,Universal Kindomの降水量と表面風速データセットを用いた実世界の予測タスクにCogDPMを適用した。
論文 参考訳(メタデータ) (2024-05-03T15:54:50Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。