論文の概要: Protein sequence classification using natural language processing techniques
- arxiv url: http://arxiv.org/abs/2409.04491v1
- Date: Fri, 6 Sep 2024 13:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:31:08.709360
- Title: Protein sequence classification using natural language processing techniques
- Title(参考訳): 自然言語処理技術を用いたタンパク質配列分類
- Authors: Huma Perveen, Julie Weeds,
- Abstract要約: 本研究では,75の標的タンパク質クラスからなるデータセットに自然言語処理(NLP)技術を適用した。
我々は,K-Nearest Neighbors (KNN), Multinomial Na"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking Classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Transformer Modelなど,機械学習およびディープラーニングモデルについて検討した。
- 参考スコア(独自算出の注目度): 3.0846824529023396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Proteins are essential to numerous biological functions, with their sequences determining their roles within organisms. Traditional methods for determining protein function are time-consuming and labor-intensive. This study addresses the increasing demand for precise, effective, and automated protein sequence classification methods by employing natural language processing (NLP) techniques on a dataset comprising 75 target protein classes. We explored various machine learning and deep learning models, including K-Nearest Neighbors (KNN), Multinomial Na\"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and transformer models (BertForSequenceClassification, DistilBERT, and ProtBert). Experiments were conducted using amino acid ranges of 1-4 grams for machine learning models and different sequence lengths for CNN and LSTM models. The KNN algorithm performed best on tri-gram data with 70.0% accuracy and a macro F1 score of 63.0%. The Voting classifier achieved best performance with 74.0% accuracy and an F1 score of 65.0%, while the Stacking classifier reached 75.0% accuracy and an F1 score of 64.0%. ProtBert demonstrated the highest performance among transformer models, with a accuracy 76.0% and F1 score 61.0% which is same for all three transformer models. Advanced NLP techniques, particularly ensemble methods and transformer models, show great potential in protein classification. Our results demonstrate that ensemble methods, particularly Voting Soft classifiers, achieved superior results, highlighting the importance of sufficient training data and addressing sequence similarity across different classes.
- Abstract(参考訳): タンパク質は多くの生物学的機能に必須であり、その配列は生物の中での役割を決定する。
タンパク質の機能を決定する伝統的な方法は、時間と労働集約である。
本研究では,75の標的タンパク質クラスからなるデータセットに対して,自然言語処理(NLP)技術を用いることにより,精度が高く,効果的で,自動的なタンパク質配列分類手法の需要を増大させる。
我々は,K-Nearest Neighbors (KNN), Multinomial Na\"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking Classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Transformer Model (BertForSequence Classification, DistilBERT, ProtBert)など,機械学習およびディープラーニングモデルについて検討した。
機械学習モデルでは1-4グラムのアミノ酸範囲と,CNNモデルとLSTMモデルでは配列長の異なるアミノ酸範囲を用いて実験を行った。
KNNアルゴリズムは, 精度70.0%, マクロF1スコア63.0%のトリグラムデータに対して, 最善を尽くした。
投票分類器は74.0%の精度でF1スコアは65.0%、スタッキング分類器は75.0%の精度でF1スコアは64.0%で最高の成績を収めた。
ProtBertは変圧器モデルの中で最も高い性能を示し、精度は76.0%、F1スコアは61.0%であり、3つの変圧器モデルで同じである。
高度なNLP技術、特にアンサンブル法とトランスフォーマーモデルは、タンパク質の分類に大きな可能性を示している。
以上の結果から,アンサンブル手法,特にVoting Soft分類器は,十分なトレーニングデータの重要性と,異なるクラスにまたがるシーケンス類似性に注目し,優れた結果を得た。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - A Fusion-Driven Approach of Attention-Based CNN-BiLSTM for Protein Family Classification -- ProFamNet [0.8429750290021879]
本研究では1D-CNN, BiLSTM, および注意機構の融合によるタンパク質ファミリーの分類モデルを提案する。
提案したモデル(ProFamNet)は450,953のパラメータと1.72MBのコンパクトサイズで優れたモデル効率を実現した。
論文 参考訳(メタデータ) (2024-10-21T20:33:18Z) - Comparative Analysis and Ensemble Enhancement of Leading CNN Architectures for Breast Cancer Classification [0.0]
本研究は,病理組織像を用いた乳癌分類への新規かつ正確なアプローチを提案する。
さまざまな画像データセット間で、主要な畳み込みニューラルネットワーク(CNN)モデルを体系的に比較する。
そこで本研究では,スタンドアロンCNNモデルにおいて,例外的分類精度を実現するために必要な設定について検討した。
論文 参考訳(メタデータ) (2024-10-04T11:31:43Z) - The object detection model uses combined extraction with KNN and RF classification [0.0]
本研究は,GLCMとLCPを特徴ベクトルとして組み合わせた新しい手法と,分類のためのVEによる物体検出の分野に寄与する。
システムテストでは4,437枚の2D画像のデータセットを使用し、KNNの精度は92.7%、F1スコアは92.5%、RF性能は低かった。
論文 参考訳(メタデータ) (2024-05-09T05:21:42Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Machine learning applications to DNA subsequence and restriction site
analysis [0.0]
制限合成は、エンドヌクレアーゼを用いて参照配列からクエリ配列を合成する新規な反復的DNA合成法である。
本研究では、3つの異なる機械学習手法を用いて合成法に適用または適用できないと分類することで、短いサブシーケンスから参照シーケンスを構築する。
SVM、ランダム森林、CNNの感度はそれぞれ94.9%、92.7%、91.4%である。
論文 参考訳(メタデータ) (2020-11-07T13:37:10Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。