論文の概要: A Pipeline for Data-Driven Learning of Topological Features with Applications to Protein Stability Prediction
- arxiv url: http://arxiv.org/abs/2408.04847v1
- Date: Fri, 9 Aug 2024 03:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:38:47.763128
- Title: A Pipeline for Data-Driven Learning of Topological Features with Applications to Protein Stability Prediction
- Title(参考訳): データによるトポロジ的特徴の学習パイプラインとタンパク質安定性予測への応用
- Authors: Amish Mishra, Francis Motta,
- Abstract要約: 生体分子データの解釈可能なトポロジ的特徴を学習するためのデータ駆動手法を提案する。
我々は、自動学習された構造的特徴を利用するモデルと、サブジェクト・マッター・エキスパート(SME)によって決定された大規模生物物理学的特徴に基づいて訓練されたモデルとを比較した。
本モデルでは,タンパク質構造のトポロジ的特徴のみに基づいて,SMEモデルの性能の92%~99%を平均精度スコアで達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a data-driven method to learn interpretable topological features of biomolecular data and demonstrate the efficacy of parsimonious models trained on topological features in predicting the stability of synthetic mini proteins. We compare models that leverage automatically-learned structural features against models trained on a large set of biophysical features determined by subject-matter experts (SME). Our models, based only on topological features of the protein structures, achieved 92%-99% of the performance of SME-based models in terms of the average precision score. By interrogating model performance and feature importance metrics, we extract numerous insights that uncover high correlations between topological features and SME features. We further showcase how combining topological features and SME features can lead to improved model performance over either feature set used in isolation, suggesting that, in some settings, topological features may provide new discriminating information not captured in existing SME features that are useful for protein stability prediction.
- Abstract(参考訳): 本稿では, 生体分子データの解釈可能なトポロジカルな特徴を学習し, 合成ミニタンパク質の安定性を予測するために, トポロジカルな特徴を訓練したパロジカルモデルの有効性を示す。
本研究では, 自動学習型構造特徴を利用したモデルと, 対象物質の専門家 (SME) によって決定された大規模生物物理学的特徴に基づいて訓練されたモデルとを比較した。
本モデルでは,タンパク質構造のトポロジ的特徴のみに基づいて,SMEモデルの性能の92%~99%を平均精度スコアで達成した。
モデル性能と特徴重要度を問うことで、トポロジ的特徴と中小企業的特徴との間に高い相関関係を明らかにする多くの知見を抽出する。
さらに, トポロジ的特徴と中小企業的特徴を組み合わせることで, 単独で使用する特徴集合よりもモデル性能が向上し, トポロジ的特徴が, タンパク質安定性予測に有用な既存の中小企業的特徴に捕えられていない新たな識別情報を提供する可能性が示唆された。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - Unravelling the Architecture of Membrane Proteins with Conditional
Random Fields [11.321552104966326]
条件ランダム場 (CRF) は, 生物体に関するマイクロレベルの情報を数学的モデルに統合し, マクロレベルの振る舞いを理解するテンプレートを提供する。
ベンチマークデータセットと他の28の手法との比較では、CRFモデルが極めて正確な予測につながることが示されている。
論文 参考訳(メタデータ) (2020-08-06T05:57:20Z) - Topological Descriptors Help Predict Guest Adsorption in Nanoporous
Materials [0.09668407688201358]
持続的ホモロジーを用いて様々なスケールでナノ多孔質材料の幾何学を記述する。
トポロジカルディスクリプタを従来の構造特徴と組み合わせて,予測タスクに対するそれぞれの相対的重要性について検討する。
論文 参考訳(メタデータ) (2020-01-16T18:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。