論文の概要: Protein sequence classification using natural language processing techniques
- arxiv url: http://arxiv.org/abs/2409.04491v2
- Date: Thu, 22 May 2025 19:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.418584
- Title: Protein sequence classification using natural language processing techniques
- Title(参考訳): 自然言語処理技術を用いたタンパク質配列分類
- Authors: Huma Perveen, Julie Weeds,
- Abstract要約: 本研究の目的は,自然言語処理(NLP)技術を用いたタンパク質配列分類の高度化である。
我々は、ランダムスプリッティングとECODファミリースプリッティングという2つの異なるデータ分割戦略の下で、さまざまな機械学習モデルとディープラーニングモデルを比較した。
- 参考スコア(独自算出の注目度): 3.0846824529023396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Purpose: This study aimed to enhance protein sequence classification using natural language processing (NLP) techniques while addressing the impact of sequence similarity on model performance. We compared various machine learning and deep learning models under two different data-splitting strategies: random splitting and ECOD family-based splitting, which ensures evolutionary-related sequences are grouped together. Methods: The study evaluated models such as K-Nearest Neighbors (KNN), Multinomial Na\"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and transformer models (BertForSequenceClassification, DistilBERT, and ProtBert). Performance was tested using different amino acid ranges and sequence lengths with a focus on generalization across unseen evolutionary families. Results: The Voting classifier achieved the highest performance with 74% accuracy, 74% weighted F1 score, and 65% macro F1 score under random splitting, while ProtBERT obtained 77% accuracy, 76% weighted F1 score, and 61% macro F1 score among transformer models. However, performance declined across all models when tested using ECOD-based splitting, revealing the impact of sequence similarity on classification performance. Conclusion: Advanced NLP techniques, particularly ensemble methods like Voting classifiers, and transformer models show significant potential in protein classification, with sufficient training data and sequence similarity management being crucial for optimal performance. However, the use of biologically meaningful splitting methods, such as ECOD family-based splitting, is crucial for realistic performance evaluation and generalization to unseen evolutionary families.
- Abstract(参考訳): 目的:本研究は,自然言語処理(NLP)技術を用いたタンパク質配列分類を改良し,配列類似性がモデル性能に与える影響に対処することを目的とした。
我々は、ランダムスプリッティングとECODファミリースプリッティングという2つの異なるデータ分割戦略の下で、さまざまな機械学習モデルとディープラーニングモデルを比較した。
方法】K-Nearest Neighbors (KNN), Multinomial Na\"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking Classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Transformer Model (BertForSequence Classification, DistilBERT, ProtBert)などのモデルを評価する。
異なるアミノ酸範囲と配列長を用いて、未知の進化家族の一般化に着目して、性能を試験した。
結果: 投票分類器の精度は74%, 重み付きF1スコアが74%, マクロF1スコアが65%, ProtBERTは77%, 重み付きF1スコアが76%, マクロF1スコアが61%であった。
しかし、ECODをベースとした分割試験により、全てのモデルで性能が低下し、シーケンス類似性が分類性能に与える影響が明らかになった。
結論: 高度なNLP技術,特にVoting分類器やトランスフォーマーモデルのようなアンサンブル手法は,十分なトレーニングデータとシーケンス類似性管理が最適な性能に不可欠であるとともに,タンパク質分類において重要な可能性を示している。
しかし、ECODファミリーに基づく分割のような生物学的に意味のある分割手法の使用は、現実的なパフォーマンス評価と、目に見えない進化家族への一般化に不可欠である。
関連論文リスト
- Multispectral airborne laser scanning for tree species classification: a benchmark of machine learning and deep learning algorithms [3.9167717582896793]
マルチスペクトル空中レーザースキャン(ALS)は、自動点クラウド処理とツリーセグメンテーションにおいて有望であることを示す。
本研究は,木種分類のための機械学習およびディープラーニング手法のベンチマークを行うことにより,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-19T16:03:49Z) - Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models [1.038088229789127]
本研究では,異なる特徴セットとデータ構成を用いたマルウェア分類タスクにおける各種分類モデルの性能について検討する。
XGBはTop 45 Featuresで87.42%の精度を達成し、他の全てのモデルを上回った。
ディープラーニングモデルはパフォーマンスが悪く、RNNは66.71%の精度でトランスフォーマーは71.59%に達した。
論文 参考訳(メタデータ) (2025-03-04T00:24:21Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - A Fusion-Driven Approach of Attention-Based CNN-BiLSTM for Protein Family Classification -- ProFamNet [0.8429750290021879]
本研究では1D-CNN, BiLSTM, および注意機構の融合によるタンパク質ファミリーの分類モデルを提案する。
提案したモデル(ProFamNet)は450,953のパラメータと1.72MBのコンパクトサイズで優れたモデル効率を実現した。
論文 参考訳(メタデータ) (2024-10-21T20:33:18Z) - Comparative Analysis and Ensemble Enhancement of Leading CNN Architectures for Breast Cancer Classification [0.0]
本研究は,病理組織像を用いた乳癌分類への新規かつ正確なアプローチを提案する。
さまざまな画像データセット間で、主要な畳み込みニューラルネットワーク(CNN)モデルを体系的に比較する。
そこで本研究では,スタンドアロンCNNモデルにおいて,例外的分類精度を実現するために必要な設定について検討した。
論文 参考訳(メタデータ) (2024-10-04T11:31:43Z) - The object detection model uses combined extraction with KNN and RF classification [0.0]
本研究は,GLCMとLCPを特徴ベクトルとして組み合わせた新しい手法と,分類のためのVEによる物体検出の分野に寄与する。
システムテストでは4,437枚の2D画像のデータセットを使用し、KNNの精度は92.7%、F1スコアは92.5%、RF性能は低かった。
論文 参考訳(メタデータ) (2024-05-09T05:21:42Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Machine learning applications to DNA subsequence and restriction site
analysis [0.0]
制限合成は、エンドヌクレアーゼを用いて参照配列からクエリ配列を合成する新規な反復的DNA合成法である。
本研究では、3つの異なる機械学習手法を用いて合成法に適用または適用できないと分類することで、短いサブシーケンスから参照シーケンスを構築する。
SVM、ランダム森林、CNNの感度はそれぞれ94.9%、92.7%、91.4%である。
論文 参考訳(メタデータ) (2020-11-07T13:37:10Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。