論文の概要: Investigating Knowledge Distillation Through Neural Networks for Protein Binding Affinity Prediction
- arxiv url: http://arxiv.org/abs/2601.03704v1
- Date: Wed, 07 Jan 2026 08:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.165778
- Title: Investigating Knowledge Distillation Through Neural Networks for Protein Binding Affinity Prediction
- Title(参考訳): タンパク質結合親和性予測のためのニューラルネットワークによる知識蒸留の検討
- Authors: Wajid Arshad Abbasi, Syed Ali Abbas, Maryum Bibi, Saiqa Andleeb, Muhammad Naveed Akhtar,
- Abstract要約: 予測精度とデータ可用性のトレードオフにより、タンパク質結合親和性を正確に予測することは困難である。
学習中にタンパク質構造データを使用し,推論時にのみシーケンスデータを必要とする知識蒸留に基づく回帰フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.22369578015657954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The trade-off between predictive accuracy and data availability makes it difficult to predict protein--protein binding affinity accurately. The lack of experimentally resolved protein structures limits the performance of structure-based machine learning models, which generally outperform sequence-based methods. In order to overcome this constraint, we suggest a regression framework based on knowledge distillation that uses protein structural data during training and only needs sequence data during inference. The suggested method uses binding affinity labels and intermediate feature representations to jointly supervise the training of a sequence-based student network under the guidance of a structure-informed teacher network. Leave-One-Complex-Out (LOCO) cross-validation was used to assess the framework on a non-redundant protein--protein binding affinity benchmark dataset. A maximum Pearson correlation coefficient (P_r) of 0.375 and an RMSE of 2.712 kcal/mol were obtained by sequence-only baseline models, whereas a P_r of 0.512 and an RMSE of 2.445 kcal/mol were obtained by structure-based models. With a P_r of 0.481 and an RMSE of 2.488 kcal/mol, the distillation-based student model greatly enhanced sequence-only performance. Improved agreement and decreased bias were further confirmed by thorough error analyses. With the potential to close the performance gap between sequence-based and structure-based models as larger datasets become available, these findings show that knowledge distillation is an efficient method for transferring structural knowledge to sequence-based predictors. The source code for running inference with the proposed distillation-based binding affinity predictor can be accessed at https://github.com/wajidarshad/ProteinAffinityKD.
- Abstract(参考訳): 予測精度とデータ可用性のトレードオフにより、タンパク質結合親和性を正確に予測することは困難である。
実験的に解決されたタンパク質構造が欠如しているため、構造に基づく機械学習モデルの性能は制限される。
この制約を克服するために、トレーニング中にタンパク質構造データを使用し、推論時にのみシーケンスデータを必要とする知識蒸留に基づく回帰フレームワークを提案する。
提案手法では,教師ネットワークの指導の下で,親和性ラベルと中間特徴表現を用いてシーケンスベースの学生ネットワークのトレーニングを共同で監督する。
left-One-Complex-Out (LOCO) クロスバリデーションを用いて,非冗長タンパク質結合親和性ベンチマークデータセット上でのフレームワークの評価を行った。
P_rは0.375,RMSEは2.712kcal/mol,P_rは0.512,RMSEは2.445kcal/molであった。
P_rは0.481、RMSEは2.488kcal/molで、蒸留ベースの学生モデルはシーケンスのみの性能を大幅に向上させた。
一致の改善とバイアスの低減は、徹底的な誤り解析によってさらに確認された。
大規模データセットが利用可能になるにつれて、シーケンスベースモデルと構造ベースモデルのパフォーマンスギャップを埋める可能性から、知識の蒸留は、構造知識をシーケンスベース予測子に転送する効率的な方法であることを示す。
提案された蒸留ベースのバインディング親和性予測器で推論を実行するソースコードは、https://github.com/wajidarshad/ProteinAffinityKDでアクセスできる。
関連論文リスト
- Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice [109.9635246405237]
データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、反転できることを示す。
評価プロトコルに簡単なパッチを導入し、プロキシモデルのトレーニングに学習率を削減した。
実験により,データキュレーションの4つの重要な次元をカバーする23種類のデータレシピに対して,このアプローチを検証した。
論文 参考訳(メタデータ) (2025-12-30T23:02:44Z) - On fine-tuning Boltz-2 for protein-protein affinity prediction [1.7607577951969595]
我々は,タンパク質-リガンド親和性予測器であるボルツ-2をタンパク質-タンパク質親和性回帰に適用した。
構造精度が高いにもかかわらず、Boltz-2-PPIは、小規模データと大規模データレギュレーションの両方において、シーケンスベースの代替よりも性能が低い。
その結果、構造データによるトレーニングに伴う既知のバイアスを反映し、現在の構造に基づく表現は、性能的親和性予測には適さないことが示唆された。
論文 参考訳(メタデータ) (2025-12-06T23:07:10Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - FlowDock: Geometric Flow Matching for Generative Protein-Ligand Docking and Affinity Prediction [3.8366697175402225]
FlowDockは、非有界(アポ)構造をそれらの有界(ホロ)構造にマッピングすることを学ぶ最初の深部幾何学的生成モデルである。
FlowDockは、予測された構造的信頼度スコアと、生成したタンパク質-リガンド複合体構造とのアフィニティ値を提供する。
論文 参考訳(メタデータ) (2024-12-14T20:54:37Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - From Static to Dynamic Structures: Improving Binding Affinity Prediction with Graph-Based Deep Learning [40.83037811977803]
Dynaformerは、タンパク質-リガンド結合親和性を予測するために開発されたグラフベースのディープラーニングモデルである。
CASF-2016ベンチマークデータセットでは、最先端のスコアとランキングの能力を示している。
熱ショックタンパク質90(HSP90)の仮想スクリーニングにおいて、20の候補を同定し、それらの結合親和性を実験的に検証する。
論文 参考訳(メタデータ) (2022-08-19T14:55:12Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。