論文の概要: KinForm: Kinetics Informed Feature Optimised Representation Models for Enzyme $k_{cat}$ and $K_{M}$ Prediction
- arxiv url: http://arxiv.org/abs/2507.14639v1
- Date: Sat, 19 Jul 2025 14:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.980134
- Title: KinForm: Kinetics Informed Feature Optimised Representation Models for Enzyme $k_{cat}$ and $K_{M}$ Prediction
- Title(参考訳): KinForm: Enzyme $k_{cat}$と$K_{M}$予測のための動的インフォーム付き特徴最適化表現モデル
- Authors: Saleh Alwer, Ronan Fleming,
- Abstract要約: KinFormは、予測精度と運動パラメータの一般化を改善するために設計された機械学習フレームワークである。
我々は,結合部位の確率プーリング,中間層選択,PCA,低密度タンパク質のオーバーサンプリングの改善を観察した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kinetic parameters such as the turnover number ($k_{cat}$) and Michaelis constant ($K_{\mathrm{M}}$) are essential for modelling enzymatic activity but experimental data remains limited in scale and diversity. Previous methods for predicting enzyme kinetics typically use mean-pooled residue embeddings from a single protein language model to represent the protein. We present KinForm, a machine learning framework designed to improve predictive accuracy and generalisation for kinetic parameters by optimising protein feature representations. KinForm combines several residue-level embeddings (Evolutionary Scale Modeling Cambrian, Evolutionary Scale Modeling 2, and ProtT5-XL-UniRef50), taken from empirically selected intermediate transformer layers and applies weighted pooling based on per-residue binding-site probability. To counter the resulting high dimensionality, we apply dimensionality reduction using principal--component analysis (PCA) on concatenated protein features, and rebalance the training data via a similarity-based oversampling strategy. KinForm outperforms baseline methods on two benchmark datasets. Improvements are most pronounced in low sequence similarity bins. We observe improvements from binding-site probability pooling, intermediate-layer selection, PCA, and oversampling of low-identity proteins. We also find that removing sequence overlap between folds provides a more realistic evaluation of generalisation and should be the standard over random splitting when benchmarking kinetic prediction models.
- Abstract(参考訳): 回転数(k_{cat}$)やマイケルス定数(K_{\mathrm{M}}$)のような運動パラメータは酵素活性のモデル化には不可欠であるが、実験データはスケールや多様性において制限されている。
酵素の動態を予測する従来の方法は、通常、タンパク質を表現するために単一のタンパク質言語モデルから平均プールされた残基埋め込みを使用する。
我々は,タンパク質の特徴表現を最適化することにより,予測精度の向上と運動パラメータの一般化を目的とした機械学習フレームワークKinFormを提案する。
KinFormは、経験的に選択された中間変圧器層から取り出されたいくつかの残基レベルの埋め込み(進化的スケールモデリングカンブリアン、進化的スケールモデリング2、ProtT5-XL-UniRef50)を組み合わせ、残基結合部位の確率に基づいて重み付けプーリングを適用する。
結果として得られた高次元性に対応するために,主成分分析(PCA)を用いた次元性低下を結合タンパク質の特徴に適用し,類似性に基づくオーバーサンプリング戦略を用いてトレーニングデータを再バランスさせる。
KinFormは、2つのベンチマークデータセットのベースラインメソッドよりも優れています。
改善は低シーケンス類似性ビンで最も顕著である。
我々は,結合部位の確率プーリング,中間層選択,PCA,低密度タンパク質のオーバーサンプリングの改善を観察した。
また、フォールド間の配列重なりを取り除くことで、一般化のより現実的な評価が得られ、速度論的予測モデルをベンチマークする場合、ランダムスプリッティングよりも標準となることを発見した。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - BI-EqNO: Generalized Approximate Bayesian Inference with an Equivariant Neural Operator Framework [9.408644291433752]
一般化されたベイズ近似のための同変ニューラル演算系であるBI-EqNOを導入する。
BI-EqNOは、データ駆動トレーニングを通じて、条件付き観測データに基づいて事前を後方に変換する。
BI-EqNO の応用例は,(1) 回帰のための一般化ガウス過程 (gGP) と(2) 逐次データ同化のためのアンサンブルニューラルフィルタ (EnNF) の2つである。
論文 参考訳(メタデータ) (2024-10-21T18:39:16Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Perturbative partial moment matching and gradient-flow adaptive importance sampling transformations for Bayesian leave one out cross-validation [0.9895793818721335]
我々は、$T(boldsymboltheta)=boldsymboltheta + h Q(boldsymboltheta)$ for $0hll 1,$という形の摂動変換の使用を動機付けている。
我々はロジスティック回帰と浅いReLU活性化ニューラルネットワークの場合のクローズドフォーム表現を導出する。
論文 参考訳(メタデータ) (2024-02-13T01:03:39Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Toward Development of Machine Learned Techniques for Production of
Compact Kinetic Models [0.0]
化学動力学モデルは燃焼装置の開発と最適化に欠かせない要素である。
本稿では、過度に再現され、最適化された化学動力学モデルを生成するための、新しい自動計算強化手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T12:31:24Z) - Information Theoretic Structured Generative Modeling [13.117829542251188]
構造生成モデル (Structured Generative Model, SGM) と呼ばれる新しい生成モデルフレームワークが提案され, 簡単な最適化が可能となった。
この実装では、無限のガウス混合モデルを学習するために適合した単一白色ノイズ源への正則入力によって駆動される1つのニューラルネットワークを採用している。
予備的な結果は、SGMがデータ効率と分散、従来のガウス混合モデルと変分混合モデル、および敵ネットワークのトレーニングにおいてMINE推定を著しく改善することを示している。
論文 参考訳(メタデータ) (2021-10-12T07:44:18Z) - Gaussian Function On Response Surface Estimation [12.35564140065216]
メタモデリング手法によるブラックボックス機械学習モデルの解釈(機能とサンプル)のための新しいフレームワークを提案する。
メタモデルは、興味のある領域のデータサンプルでコンピュータ実験を実行することによって、訓練された複雑なモデルによって生成されたデータから推定することができる。
論文 参考訳(メタデータ) (2021-01-04T04:47:00Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Additive interaction modelling using I-priors [0.571097144710995]
相互作用を持つモデルのパプリミティブな仕様を導入し、その利点を2つ挙げる。
スケールパラメータの数を減らし、相互作用のあるモデルの推定を容易にする。
論文 参考訳(メタデータ) (2020-07-30T22:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。