論文の概要: Fine-Tuning ChemBERTa for Predicting Inhibitory Activity Against TDP1 Using Deep Learning
- arxiv url: http://arxiv.org/abs/2512.04252v1
- Date: Wed, 03 Dec 2025 20:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.868312
- Title: Fine-Tuning ChemBERTa for Predicting Inhibitory Activity Against TDP1 Using Deep Learning
- Title(参考訳): 深層学習を用いたTDP1阻害活性予測のための微調整ChemBERTa
- Authors: Baichuan Zeng,
- Abstract要約: チロシルDNAホスホジエステラーゼ1(TDP1)に対する小分子の作用を予測することは、初期の薬物発見において重要な課題である。
本稿では,ChemBERTaの微調整によるpIC50値の定量的回帰のためのディープラーニングフレームワークを提案する。
提案手法は、回帰精度と仮想スクリーニングユーティリティの両方において、古典的ベースラインのランダム予測よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the inhibitory potency of small molecules against Tyrosyl-DNA Phosphodiesterase 1 (TDP1)-a key target in overcoming cancer chemoresistance-remains a critical challenge in early drug discovery. We present a deep learning framework for the quantitative regression of pIC50 values from molecular Simplified Molecular Input Line Entry System (SMILES) strings using fine-tuned variants of ChemBERTa, a pre-trained chemical language model. Leveraging a large-scale consensus dataset of 177,092 compounds, we systematically evaluate two pre-training strategies-Masked Language Modeling (MLM) and Masked Token Regression (MTR)-under stratified data splits and sample weighting to address severe activity imbalance which only 2.1% are active. Our approach outperforms classical baselines Random Predictor in both regression accuracy and virtual screening utility, and has competitive performance compared to Random Forest, achieving high enrichment factor EF@1% 17.4 and precision Precision@1% 37.4 among top-ranked predictions. The resulting model, validated through rigorous ablation and hyperparameter studies, provides a robust, ready-to-deploy tool for prioritizing TDP1 inhibitors for experimental testing. By enabling accurate, 3D-structure-free pIC50 prediction directly from SMILES, this work demonstrates the transformative potential of chemical transformers in accelerating target-specific drug discovery.
- Abstract(参考訳): チロシルDNAホスホジエステラーゼ1(TDP1)に対する小分子の阻害作用の予測は、早期の薬物発見において重要な課題である。
分子単純分子入力線入力システム(SMILES)文字列からのpIC50値の定量的回帰を,事前学習した化学言語モデルであるChemBERTaの微調整変種を用いたディープラーニングフレームワークを提案する。
大規模コンセンサスデータセットを177,092化合物に適用し,MLM(Masked Language Modeling)とMTR(Masked Token Regression)の2つの事前学習戦略を系統的に評価した。
提案手法は、回帰精度と仮想スクリーニングユーティリティの両方において古典的ベースラインのランダム予測よりも優れており、Random Forestと比較して高いエンリッチメント係数EF@1% 17.4と精度の精度@1% 37.4を実現している。
得られたモデルは、厳密なアブレーションとハイパーパラメーターの研究を通じて検証され、実験試験のためにTDP1阻害剤を優先順位付けするための堅牢で準備の整ったツールを提供する。
SMILESから直接、正確な3D構造のないpIC50予測を可能にすることにより、この研究は、標的特異的な薬物発見を加速する化学トランスフォーマーの変換ポテンシャルを実証する。
関連論文リスト
- Valid Property-Enhanced Contrastive Learning for Targeted Optimization & Resampling for Novel Drug Design [1.4874449172133888]
VECTOR+は、プロパティ誘導表現学習と制御可能な分子生成を結合するフレームワークである。
VECTOR+は新規で合成抽出可能な候補を生成する。
VECTOR+はキナーゼ阻害剤に一般化し、確立された薬物よりも強いドッキングスコアを持つ化合物を産生する。
論文 参考訳(メタデータ) (2025-08-31T03:55:29Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Improved Drug-target Interaction Prediction with Intermolecular Graph
Transformer [98.8319016075089]
本稿では,3方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化する手法を提案する。
分子間グラフ変換器(IGT)は、それぞれ、結合活性と結合ポーズ予測の2番目のベストに対して、最先端のアプローチを9.1%と20.5%で上回っている。
IGTはSARS-CoV-2に対して有望な薬物スクリーニング能力を示す。
論文 参考訳(メタデータ) (2021-10-14T13:28:02Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。