論文の概要: Fine-Tuning ChemBERTa for Predicting Inhibitory Activity Against TDP1 Using Deep Learning
- arxiv url: http://arxiv.org/abs/2512.04252v1
- Date: Wed, 03 Dec 2025 20:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.868312
- Title: Fine-Tuning ChemBERTa for Predicting Inhibitory Activity Against TDP1 Using Deep Learning
- Title(参考訳): 深層学習を用いたTDP1阻害活性予測のための微調整ChemBERTa
- Authors: Baichuan Zeng,
- Abstract要約: チロシルDNAホスホジエステラーゼ1(TDP1)に対する小分子の作用を予測することは、初期の薬物発見において重要な課題である。
本稿では,ChemBERTaの微調整によるpIC50値の定量的回帰のためのディープラーニングフレームワークを提案する。
提案手法は、回帰精度と仮想スクリーニングユーティリティの両方において、古典的ベースラインのランダム予測よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the inhibitory potency of small molecules against Tyrosyl-DNA Phosphodiesterase 1 (TDP1)-a key target in overcoming cancer chemoresistance-remains a critical challenge in early drug discovery. We present a deep learning framework for the quantitative regression of pIC50 values from molecular Simplified Molecular Input Line Entry System (SMILES) strings using fine-tuned variants of ChemBERTa, a pre-trained chemical language model. Leveraging a large-scale consensus dataset of 177,092 compounds, we systematically evaluate two pre-training strategies-Masked Language Modeling (MLM) and Masked Token Regression (MTR)-under stratified data splits and sample weighting to address severe activity imbalance which only 2.1% are active. Our approach outperforms classical baselines Random Predictor in both regression accuracy and virtual screening utility, and has competitive performance compared to Random Forest, achieving high enrichment factor EF@1% 17.4 and precision Precision@1% 37.4 among top-ranked predictions. The resulting model, validated through rigorous ablation and hyperparameter studies, provides a robust, ready-to-deploy tool for prioritizing TDP1 inhibitors for experimental testing. By enabling accurate, 3D-structure-free pIC50 prediction directly from SMILES, this work demonstrates the transformative potential of chemical transformers in accelerating target-specific drug discovery.
- Abstract(参考訳): チロシルDNAホスホジエステラーゼ1(TDP1)に対する小分子の阻害作用の予測は、早期の薬物発見において重要な課題である。
分子単純分子入力線入力システム(SMILES)文字列からのpIC50値の定量的回帰を,事前学習した化学言語モデルであるChemBERTaの微調整変種を用いたディープラーニングフレームワークを提案する。
大規模コンセンサスデータセットを177,092化合物に適用し,MLM(Masked Language Modeling)とMTR(Masked Token Regression)の2つの事前学習戦略を系統的に評価した。
提案手法は、回帰精度と仮想スクリーニングユーティリティの両方において古典的ベースラインのランダム予測よりも優れており、Random Forestと比較して高いエンリッチメント係数EF@1% 17.4と精度の精度@1% 37.4を実現している。
得られたモデルは、厳密なアブレーションとハイパーパラメーターの研究を通じて検証され、実験試験のためにTDP1阻害剤を優先順位付けするための堅牢で準備の整ったツールを提供する。
SMILESから直接、正確な3D構造のないpIC50予測を可能にすることにより、この研究は、標的特異的な薬物発見を加速する化学トランスフォーマーの変換ポテンシャルを実証する。
関連論文リスト
- EnzyCLIP: A Cross-Attention Dual Encoder Framework with Contrastive Learning for Predicting Enzyme Kinetic Constants [2.92594095183629]
本稿では,タンパク質配列および基質分子構造から酵素の動的パラメータを予測するための,新規な二重エンコーダフレームワークであるEnzyCLIPを提案する。
このモデルは23,151Kcatと41,174Kmの実験的に検証された測定値を含むCatPred-DBデータベースで訓練されている。
学習した埋め込みに適用されるXGBoostアンサンブル法は、堅牢なKcat性能を維持しつつ、さらにKm予測(R2 = 0.61)を改善した。
論文 参考訳(メタデータ) (2025-11-29T08:13:06Z) - Predictive Modeling and Explainable AI for Veterinary Safety Profiles, Residue Assessment, and Health Outcomes Using Real-World Data and Physicochemical Properties [4.53318808068234]
逆事象(AEs)は、予期せぬまたは毒性の運動作用を示し、食物連鎖の違反的残基のリスクを増大させる。
本研究は,米国食品医薬品局(FDA)の獣医学センターからの128万件の報告を用いて,結果の分類(死対回復)を行うための予測的枠組みを紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:34:46Z) - Valid Property-Enhanced Contrastive Learning for Targeted Optimization & Resampling for Novel Drug Design [1.4874449172133888]
VECTOR+は、プロパティ誘導表現学習と制御可能な分子生成を結合するフレームワークである。
VECTOR+は新規で合成抽出可能な候補を生成する。
VECTOR+はキナーゼ阻害剤に一般化し、確立された薬物よりも強いドッキングスコアを持つ化合物を産生する。
論文 参考訳(メタデータ) (2025-08-31T03:55:29Z) - SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.189335444981353]
小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。
本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。
その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
論文 参考訳(メタデータ) (2024-08-11T04:53:12Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - SPLDExtraTrees: Robust machine learning approach for predicting kinase
inhibitor resistance [1.0674604700001966]
本研究では,タンパク質変異によるリガンド結合親和性の変化を正確に予測できる堅牢な機械学習手法SPLDExtraTreesを提案する。
提案手法は、学習が容易なサンプルから始まる特定のスキームに従ってトレーニングデータをランク付けする。
実験では,3つのシナリオにおいて,キナーゼ阻害剤耐性の予測法の有効性を実証した。
論文 参考訳(メタデータ) (2021-11-15T09:07:45Z) - Improved Drug-target Interaction Prediction with Intermolecular Graph
Transformer [98.8319016075089]
本稿では,3方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化する手法を提案する。
分子間グラフ変換器(IGT)は、それぞれ、結合活性と結合ポーズ予測の2番目のベストに対して、最先端のアプローチを9.1%と20.5%で上回っている。
IGTはSARS-CoV-2に対して有望な薬物スクリーニング能力を示す。
論文 参考訳(メタデータ) (2021-10-14T13:28:02Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。