論文の概要: Layer Probing Improves Kinase Functional Prediction with Protein Language Models
- arxiv url: http://arxiv.org/abs/2512.00376v1
- Date: Sat, 29 Nov 2025 08:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.203175
- Title: Layer Probing Improves Kinase Functional Prediction with Protein Language Models
- Title(参考訳): Layer Probingはタンパク質言語モデルによるキナーゼ機能予測を改善する
- Authors: Ajit Kumar, IndraPrakash Jha,
- Abstract要約: 中間から後期のトランス層(20-33層)が最終層を32%上回っていることを示す。
基本層選択はキナーゼ機能の予測を大幅に改善する。
- 参考スコア(独自算出の注目度): 0.22590311296876828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models (PLMs) have transformed sequence-based protein analysis, yet most applications rely only on final-layer embeddings, which may overlook biologically meaningful information encoded in earlier layers. We systematically evaluate all 33 layers of ESM-2 for kinase functional prediction using both unsupervised clustering and supervised classification. We show that mid-to-late transformer layers (layers 20-33) outperform the final layer by 32 percent in unsupervised Adjusted Rand Index and improve homology-aware supervised accuracy to 75.7 percent. Domain-level extraction, calibrated probability estimates, and a reproducible benchmarking pipeline further strengthen reliability. Our results demonstrate that transformer depth contains functionally distinct biological signals and that principled layer selection significantly improves kinase function prediction.
- Abstract(参考訳): タンパク質言語モデル (PLM) は配列に基づくタンパク質解析を変換しているが、ほとんどのアプリケーションは最終層埋め込みにのみ依存している。
教師なしクラスタリングと教師付き分類の両方を用いて,ESM-2の33層全てをキナーゼ機能予測のために体系的に評価した。
中間層から中間層までのトランスフォーマー層(20-33層)は、教師なし適応ランダム指数において最終層を32%上回り、ホモロジー対応の精度を75.7%向上させることを示した。
ドメインレベルの抽出、キャリブレーションされた確率推定、再現可能なベンチマークパイプラインにより信頼性が向上する。
以上の結果から, トランスフォーマー深さは機能的に異なる生物学的信号を含み, 基本層選択はキナーゼ関数の予測を著しく改善することが示された。
関連論文リスト
- Exploring the limits of pre-trained embeddings in machine-guided protein design: a case study on predicting AAV vector viability [0.39146761527401425]
タンパク質バイオエンジニアリングは、配列表現に固有の課題を提起する。
実験は典型的には少数の突然変異を特徴としており、全配列にわたってわずかに分布するか、局所的な領域に集中している。
これにより、意味のある信号を抽出するシーケンスレベルの表現が制限される。
論文 参考訳(メタデータ) (2026-02-16T15:21:11Z) - A Multimodal Human Protein Embeddings Database: DeepDrug Protein Embeddings Bank (DPEB) [0.3822990432531661]
DPEB(DPEB)は、4つの埋め込み型を統合した22,043個のヒトタンパク質のキュレートされたコレクションである。
DPEBは、PPI予測のための複数のグラフニューラルネットワークメソッドをサポートしている。
論文 参考訳(メタデータ) (2025-10-24T20:22:17Z) - Sparse Autoencoders for Low-$N$ Protein Function Prediction and Design [0.0]
アミノ酸配列からのタンパク質機能の予測は、データスカース機構における中心的な課題である。
タンパク質言語モデル(pLM)は進化的インフォームド埋め込みとスパースオートエンコーダ(SAE)を提供することによって分野を進歩させた。
SAEは、24のシーケンスしか持たないが、フィットネス予測において、ESM2ベースラインよりも一貫して優れているか、競争している。
論文 参考訳(メタデータ) (2025-08-25T23:56:39Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Lightweight MSA Design Advances Protein Folding From Evolutionary Embeddings [51.731441632457226]
マルチシークエンスアライメント(MSA)は低ホモロジーおよび孤児タンパク質で機能する。
我々は、下流の折り畳みをより良くサポートするMSAを生成する軽量なMSA設計フレームワークPLAMEを紹介する。
AlphaFold2の低ホモロジー/孤児ベンチマークでは、PLAMEは構造精度の最先端の改善を提供する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - Protein Inverse Folding From Structure Feedback [78.27854221882572]
本稿では,タンパク質の折りたたみモデルからのフィードバックを用いて,逆折りたたみモデルを微調整する手法を提案する。
CATH 4.2 テストセットの結果,DPO の微調整により平均 TM-Score が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-03T16:02:12Z) - A general language model for peptide identification [3.856457290796735]
PDeepPPは、事前訓練されたタンパク質言語モデルとハイブリッドトランスフォーマー-畳み込みアーキテクチャを統合する統合ディープラーニングフレームワークである。
大規模かつ正確なペプチド分析を可能にすることにより、PDeepPPは生物医学研究と疾患治療のための新しい治療標的の発見を支援している。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion [11.278610817877578]
MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。
New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-11T08:28:43Z) - DisorderUnetLM: Validating ProteinUnet for efficient protein intrinsic disorder prediction [0.0]
内因性障害領域の予測は、タンパク質の機能やダイナミクスを理解する上で重要な意味を持つ。
近年,タンパク質言語モデル(pLM)に基づく新しい世代の予測器が出現している。
本稿では、タンパク質Unetの考え方に基づく新しい障害UnetLM障害予測器について紹介する。
論文 参考訳(メタデータ) (2024-04-11T20:14:14Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - CoGANPPIS: A Coevolution-enhanced Global Attention Neural Network for
Protein-Protein Interaction Site Prediction [0.9217021281095907]
PPI予測のためのシーケンスベースディープラーニングモデルである,共進化型グローバルアテンションニューラルネットワークを提案する。
CoGANPPISは特徴抽出に3つの層を並列に利用する。
提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-13T09:27:34Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。