論文の概要: SBSM-Pro: Support Bio-sequence Machine for Proteins
- arxiv url: http://arxiv.org/abs/2308.10275v2
- Date: Sat, 4 Nov 2023 12:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:29:19.643616
- Title: SBSM-Pro: Support Bio-sequence Machine for Proteins
- Title(参考訳): SBSM-Pro:タンパク質のバイオシーケンスマシンをサポート
- Authors: Yizheng Wang, Yixiao Zhai, Yijie Ding, Quan Zou
- Abstract要約: 本稿では,生物配列の分類モデルであるSBSM-Pro(Support Bio-Sequence Machine for Proteins)を紹介する。
配列アライメントを組み込んでタンパク質間の類似性を計測し、新しいマルチカーネル学習(MKL)アプローチを用いて様々な種類の情報を統合する。
以上の結果から,タンパク質の機能同定と翻訳後修飾の観点から,本モデルが10個のデータセットにまたがる可換性を示すことが示唆された。
- 参考スコア(独自算出の注目度): 2.716144006729723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins play a pivotal role in biological systems. The use of machine
learning algorithms for protein classification can assist and even guide
biological experiments, offering crucial insights for biotechnological
applications. We introduce the Support Bio-Sequence Machine for Proteins
(SBSM-Pro), a model purpose-built for the classification of biological
sequences. This model starts with raw sequences and groups amino acids based on
their physicochemical properties. It incorporates sequence alignment to measure
the similarities between proteins and uses a novel multiple kernel learning
(MKL) approach to integrate various types of information, utilizing support
vector machines for classification prediction. The results indicate that our
model demonstrates commendable performance across ten datasets in terms of the
identification of protein function and posttranslational modification. This
research not only exemplifies state-of-the-art work in protein classification
but also paves avenues for new directions in this domain, representing a
beneficial endeavor in the development of platforms tailored for the
classification of biological sequences. SBSM-Pro is available for access at
http://lab.malab.cn/soft/SBSM-Pro/.
- Abstract(参考訳): タンパク質は生物学的システムにおいて重要な役割を果たす。
タンパク質の分類に機械学習アルゴリズムを使用することで、生物実験を補助し、ガイドすることもできる。
本稿では,生物配列の分類を目的としたモデルであるSBSM-Pro(Support Bio-Sequence Machine for Proteins)を紹介する。
このモデルは生の配列から始まり、その物理化学的性質に基づいてアミノ酸をグループ化する。
配列アライメントを組み、タンパク質間の類似性を計測し、新しいマルチカーネル学習(MKL)アプローチを使用して様々な種類の情報を統合し、サポートベクターマシンを用いて分類予測を行う。
以上の結果から,本モデルではタンパク質機能の同定と翻訳後修飾の観点から10個のデータセットをまたいだ可読性を示す。
本研究は、タンパク質の分類における最先端の研究を実証するだけでなく、生物配列の分類に適したプラットフォームの開発における有益な取り組みとして、この領域の新しい方向を舗装する。
SBSM-Proはhttp://lab.malab.cn/soft/SBSM-Pro/からアクセスできる。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction [27.212743275697825]
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
論文 参考訳(メタデータ) (2021-12-01T08:31:01Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。
それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。
この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文 参考訳(メタデータ) (2021-11-03T01:58:16Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。