Fugu-MT 論文翻訳(概要): CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction

論文の概要: CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction

arxiv url: http://arxiv.org/abs/2506.08059v1
Date: Mon, 09 Jun 2025 07:30:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.258683
Title: CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction
Title（参考訳）: CaliciBoost: Caco-2透過性予測のための分子表現の性能駆動評価
Authors: Huong Van Le, Weibin Ren, Junhong Kim, Yukyung Yun, Young Bin Park, Young Jun Kim, Bok Kyung Han, Inho Choi, Jong IL Park, Hwi-Yeol Yun, Jae-Mun Choi,
Abstract要約: Caco-2の透過性は、初期薬物発見時の薬物候補の経口吸収を予測する重要なin vitro指標となる。本研究では,2D/3D記述子,構造指紋,深層学習に基づく埋め込みを含む8種類の分子的特徴表現の影響について検討した。 PaDELとMordredの両方の表現に対して、3Dディスクリプタは2D機能のみを使用する場合に比べて15.73%削減された。
参考スコア（独自算出の注目度）: 2.6621416538504827
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Caco-2 permeability serves as a critical in vitro indicator for predicting the oral absorption of drug candidates during early-stage drug discovery. To enhance the accuracy and efficiency of computational predictions, we systematically investigated the impact of eight molecular feature representation types including 2D/3D descriptors, structural fingerprints, and deep learning-based embeddings combined with automated machine learning techniques to predict Caco-2 permeability. Using two datasets of differing scale and diversity (TDC benchmark and curated OCHEM data), we assessed model performance across representations and identified PaDEL, Mordred, and RDKit descriptors as particularly effective for Caco-2 prediction. Notably, the AutoML-based model CaliciBoost achieved the best MAE performance. Furthermore, for both PaDEL and Mordred representations, the incorporation of 3D descriptors resulted in a 15.73% reduction in MAE compared to using 2D features alone, as confirmed by feature importance analysis. These findings highlight the effectiveness of AutoML approaches in ADMET modeling and offer practical guidance for feature selection in data-limited prediction tasks.
Abstract（参考訳）: Caco-2の透過性は、初期薬物発見時の薬物候補の経口吸収を予測する重要なin vitro指標となる。計算予測の精度と効率を向上させるため,2D/3Dディスクリプタ,構造指紋,深層学習ベース埋め込みを含む8種類の分子的特徴表現タイプと,自動機械学習技術と組み合わせてCaco-2透過性を予測することによる影響を系統的に検討した。異なるスケールと多様性の2つのデータセット(TDCベンチマークとOCHEMデータ)を用いて、表現間のモデル性能を評価し、Caco-2予測に特に有効なPaDEL、Mordred、RDKit記述子を同定した。特に、AutoMLベースのモデルであるCaliciBoostは、最高のMAEパフォーマンスを達成した。さらに、PaDELとMordredの両方の表現において、3Dディスクリプタの組み入れにより、2Dの特徴のみを使用する場合と比較して15.73%のMAEが削減された。これらの結果は、ADMETモデリングにおけるAutoMLアプローチの有効性を強調し、データ制限予測タスクにおける特徴選択のための実用的なガイダンスを提供する。

関連論文リスト

Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset [0.0]
本研究では,EMBERデータセットを用いた静的マルウェア検出における機械学習アルゴリズムの有効性について検討した。 LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8つの分類モデルを評価した。モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
論文参考訳（メタデータ） (2025-07-22T18:45:10Z)
Aligned Manifold Property and Topology Point Clouds for Learning Molecular Properties [55.2480439325792]
この研究は、局所量子由来のスカラー場とカスタムトポロジカルディスクリプタを組み合わせた分子表面表現であるAMPTCRを導入する。分子量については、AMPTCRが物理的に意味のあるデータをコードし、検証R2は0.87であることを確認した。細菌抑制タスクでは、AMPTCRは大腸菌阻害値の分類と直接回帰の両方を可能にする。
論文参考訳（メタデータ） (2025-07-22T04:35:50Z)
SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
Development and Comparative Analysis of Machine Learning Models for Hypoxemia Severity Triage in CBRNE Emergency Scenarios Using Physiological and Demographic Data from Medical-Grade Devices [0.0]
グラディエントブースティングモデル(GBM)は、トレーニング速度、解釈可能性、信頼性の点で、シーケンシャルモデルを上回った。タイムリーな介入のために5分間の予測ウィンドウが選択された。本研究は、トリアージを改善し、アラーム疲労を軽減するMLの可能性を強調した。
論文参考訳（メタデータ） (2024-10-30T23:24:28Z)
Kolmogorov-Arnold Neural Networks for High-Entropy Alloys Design [14.37149160708975]
Kolmogorov-Arnold Networks (KAN)は、最近開発されたアーキテクチャであり、入力機能の精度と解釈性の両方を改善することを目的としている。本研究では,HEA設計のための3つの異なるデータセットを探索し,分類モデルと回帰モデルの両方に対するkanの適用を実証する。
論文参考訳（メタデータ） (2024-10-11T01:48:47Z)
CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding [62.075029712357]
本研究は認知拡散確率モデル(CogDPM)を紹介する。 CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。我々は,Universal Kindomの降水量と表面風速データセットを用いた実世界の予測タスクにCogDPMを適用した。
論文参考訳（メタデータ） (2024-05-03T15:54:50Z)
Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文参考訳（メタデータ） (2024-04-04T00:49:05Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Generalizability of Machine Learning Models: Quantitative Evaluation of Three Methodological Pitfalls [1.3870303451896246]
いくつかの医用画像データセットを用いてランダムフォレストとディープ畳み込みニューラルネットワークモデルを実装した。独立仮定の違反はモデル一般化可能性に大きく影響する可能性が示唆された。不適切なパフォーマンス指標は誤った結論につながる可能性がある。
論文参考訳（メタデータ） (2022-02-01T05:07:27Z)
A multi-stage machine learning model on diagnosis of esophageal manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文参考訳（メタデータ） (2021-06-25T20:09:23Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。