論文の概要: RoseNet: Predicting Energy Metrics of Double InDel Mutants Using Deep
Learning
- arxiv url: http://arxiv.org/abs/2310.13806v1
- Date: Fri, 20 Oct 2023 20:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:21:04.873365
- Title: RoseNet: Predicting Energy Metrics of Double InDel Mutants Using Deep
Learning
- Title(参考訳): RoseNet:ディープラーニングを用いたダブルインデル変異体のエネルギーメトリック予測
- Authors: Sarah Coffland and Katie Christensen and Filip Jagodzinski and Brian
Hutchinson
- Abstract要約: ロボット工学にインスパイアされた逆運動学のアプローチをRosettaで利用可能なロボットを用いて計算的に生成した3つのタンパク質に対して、徹底的な二重InDel変異のデータセットを利用する。
我々は,ミュータント生成プロセス中にRosettaが出力するいくつかの構造的およびエネルギー的指標に基づいて,ニューラルネットワークであるRoseNetを開発し,訓練する。
モデルは最小限のデータ(50%)でトレーニングでき、高いレベルの精度を維持することができる。
- 参考スコア(独自算出の注目度): 0.7776497736451751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An amino acid insertion or deletion, or InDel, can have profound and varying
functional impacts on a protein's structure. InDel mutations in the
transmembrane conductor regulator protein for example give rise to cystic
fibrosis. Unfortunately performing InDel mutations on physical proteins and
studying their effects is a time prohibitive process. Consequently, modeling
InDels computationally can supplement and inform wet lab experiments. In this
work, we make use of our data sets of exhaustive double InDel mutations for
three proteins which we computationally generated using a robotics inspired
inverse kinematics approach available in Rosetta. We develop and train a neural
network, RoseNet, on several structural and energetic metrics output by Rosetta
during the mutant generation process. We explore and present how RoseNet is
able to emulate the exhaustive data set using deep learning methods, and show
to what extent it can predict Rosetta metrics for unseen mutant sequences with
two InDels. RoseNet achieves a Pearson correlation coefficient median accuracy
of 0.775 over all Rosetta scores for the largest protein. Furthermore, a
sensitivity analysis is performed to determine the necessary quantity of data
required to accurately emulate the structural scores for computationally
generated mutants. We show that the model can be trained on minimal data (<50%)
and still retain a high level of accuracy.
- Abstract(参考訳): アミノ酸の挿入または欠失(InDel)は、タンパク質の構造に深く、様々な機能的影響をもたらす。
例えば膜膜伝導性調節タンパク質のindel変異は嚢胞性線維化を引き起こす。
残念なことに、インデル変異を物理タンパク質に作用させ、その効果を研究することは、時間のかかる過程である。
したがって、計算的にモデリングインデルはウェットラボの実験を補い、知らせることができる。
本研究では,ロボティクスに触発された逆キネマティックスアプローチを用いて計算により生成した3つのタンパク質について,徹底的な二重インデル変異のデータセットを用いた。
我々は,ミュータント生成プロセス中にRosettaが出力するいくつかの構造的およびエネルギー的指標に基づいて,ニューラルネットワークであるRoseNetを開発し,訓練する。
深層学習手法を用いて,RoseNetが網羅的なデータセットをエミュレートする方法を探索し,また2つのInDelsを持つ未確認ミュータントシーケンスに対して,Rosettaメトリクスをどの程度予測できるかを示す。
RoseNetは、最大のタンパク質に対する全てのロゼッタスコアに対してピアソン相関係数の平均精度を0.775とする。
さらに、算出された突然変異体の構造スコアを正確にエミュレートするために必要なデータ量を決定するための感度解析を行う。
モデルが最小限のデータ(<50%)でトレーニングでき、高い精度を維持していることを示す。
関連論文リスト
- YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Data-Error Scaling in Machine Learning on Natural Discrete Combinatorial Mutation-prone Sets: Case Studies on Peptides and Small Molecules [0.0]
本研究では機械学習(ML)モデルにおけるデータエラースケーリングの傾向について検討する。
典型的なデータエラースケーリングとは対照的に,学習中に不連続な単調相転移がみられた。
学習曲線を正規化するための代替戦略とミュータントに基づくシャッフルの概念を提案する。
論文 参考訳(メタデータ) (2024-05-08T16:04:50Z) - Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - Interpretable cancer cell detection with phonon microscopy using multi-task conditional neural networks for inter-batch calibration [39.759100498329275]
本稿では,バッチ間キャリブレーションを同時に実現する条件付きニューラルネットワークフレームワークを提案する。
異なる実験バッチをトレーニングし、検証することで、我々のアプローチを検証する。
このモデルを拡張して, 診断信号の再構成を行い, 疾患状態を示す有能な特徴の物理的解釈を可能にした。
論文 参考訳(メタデータ) (2024-03-26T12:20:10Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - SPLDExtraTrees: Robust machine learning approach for predicting kinase
inhibitor resistance [1.0674604700001966]
本研究では,タンパク質変異によるリガンド結合親和性の変化を正確に予測できる堅牢な機械学習手法SPLDExtraTreesを提案する。
提案手法は、学習が容易なサンプルから始まる特定のスキームに従ってトレーニングデータをランク付けする。
実験では,3つのシナリオにおいて,キナーゼ阻害剤耐性の予測法の有効性を実証した。
論文 参考訳(メタデータ) (2021-11-15T09:07:45Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。