論文の概要: ProteoKnight: Convolution-based phage virion protein classification and uncertainty analysis
- arxiv url: http://arxiv.org/abs/2508.07345v1
- Date: Sun, 10 Aug 2025 13:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.821008
- Title: ProteoKnight: Convolution-based phage virion protein classification and uncertainty analysis
- Title(参考訳): ProteoKnight:コンボリューションに基づくファージウイルスタンパク質の分類と不確実性解析
- Authors: Samiha Afaf Neha, Abir Ahammed Bhuiyan, Md. Ishrak Khan,
- Abstract要約: 本稿では,既存の手法における空間制約に対処する画像ベース符号化手法であるProteoKnightを紹介する。
本研究はモンテカルロ・ドロップアウトによるバイナリPVP分類における予測の不確実性を評価する。
我々の実験は、最先端の手法に匹敵する二分法で90.8%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \textbf{Introduction:} Accurate prediction of Phage Virion Proteins (PVP) is essential for genomic studies due to their crucial role as structural elements in bacteriophages. Computational tools, particularly machine learning, have emerged for annotating phage protein sequences from high-throughput sequencing. However, effective annotation requires specialized sequence encodings. Our paper introduces ProteoKnight, a new image-based encoding method that addresses spatial constraints in existing techniques, yielding competitive performance in PVP classification using pre-trained convolutional neural networks. Additionally, our study evaluates prediction uncertainty in binary PVP classification through Monte Carlo Dropout (MCD). \textbf{Methods:} ProteoKnight adapts the classical DNA-Walk algorithm for protein sequences, incorporating pixel colors and adjusting walk distances to capture intricate protein features. Encoded sequences were classified using multiple pre-trained CNNs. Variance and entropy measures assessed prediction uncertainty across proteins of various classes and lengths. \textbf{Results:} Our experiments achieved 90.8% accuracy in binary classification, comparable to state-of-the-art methods. Multi-class classification accuracy remains suboptimal. Our uncertainty analysis unveils variability in prediction confidence influenced by protein class and sequence length. \textbf{Conclusions:} Our study surpasses frequency chaos game representation (FCGR) by introducing novel image encoding that mitigates spatial information loss limitations. Our classification technique yields accurate and robust PVP predictions while identifying low-confidence predictions.
- Abstract(参考訳): ファージウイルスタンパク質(PVP)の正確な予測は、バクテリオファージの構造的要素としての役割から、ゲノム研究に不可欠である。
計算ツール、特に機械学習は、高スループットシークエンシングからファージタンパク質配列に注釈をつけるために登場した。
しかし、効果的なアノテーションには特別なシーケンスエンコーディングが必要である。
本稿では,既存の手法における空間的制約に対処し,事前学習した畳み込みニューラルネットワークを用いたPVP分類における競合性能を得る画像ベースの新しい符号化手法ProteoKnightを紹介する。
さらに,モンテカルロ・ドロップアウト(MCD)を用いたバイナリPVP分類における予測の不確実性を評価する。
ProteoKnightは古典的なDNA-Walkアルゴリズムをタンパク質配列に適用し、ピクセルカラーを取り入れ、歩行距離を調整して複雑なタンパク質の特徴を捉える。
符号化されたシーケンスは、複数の事前訓練されたCNNを使用して分類された。
変異およびエントロピー測定は、様々なクラスと長さのタンパク質間で予測の不確実性を評価する。
我々の実験は、最先端の手法に匹敵するバイナリ分類において、90.8%の精度を達成した。
分類の精度は準最適である。
我々の不確実性分析は、タンパク質のクラスと配列長に影響された予測信頼度の変化を明らかにする。
本研究は,空間情報損失制限を緩和する新しい画像符号化を導入することで,周波数カオスゲーム表現(FCGR)を超越する。
我々の分類手法は、信頼性の低い予測を識別しながら、正確でロバストなPVP予測をもたらす。
関連論文リスト
- Position Specific Scoring Is All You Need? Revisiting Protein Sequence Classification Tasks [41.7345616221048]
タンパク質配列のPSS表現と文字列カーネルの概念を組み合わせた重み付きPSSカーネル行列(W-PSSKM)を提案する。
この結果、タンパク質配列分類の他の多くのアプローチよりも優れた新しいカーネル関数がもたらされる。
論文 参考訳(メタデータ) (2024-10-16T15:16:50Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - PCD2Vec: A Poisson Correction Distance-Based Approach for Viral Host
Classification [0.966840768820136]
コロナウイルス(英: Coronavirus)は、コロナウイルス科に属する膜に侵入し、非分節の正鎖RNAウイルスである。
コロナウイルスゲノムにおいて、重要な構造領域はスパイク領域であり、宿主の細胞膜にウイルスを付着させる責任がある。
本研究では、異なるウイルス亜属および種からスパイクタンパク質配列を解析することにより、ウイルスの宿主特異性を予測する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-04-13T03:02:22Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。