Fugu-MT 論文翻訳(概要): A general language model for peptide identification

論文の概要: A general language model for peptide identification

arxiv url: http://arxiv.org/abs/2502.15610v2
Date: Thu, 17 Apr 2025 17:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 20:12:06.249133
Title: A general language model for peptide identification
Title（参考訳）: ペプチド同定のための汎用言語モデル
Authors: Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang,
Abstract要約: PDeepPPは、事前訓練されたタンパク質言語モデルと並列トランスフォーマー-CNNアーキテクチャを統合するディープラーニングフレームワークである。このモデルのハイブリッドアーキテクチャは、局所的なシーケンスモチーフとグローバルな構造特徴の両方をキャプチャするユニークな機能を示している。決定的なグリコシル化部位の検出において99.5%の特異性を保ちながら、配列アライメント法よりも218*の加速を達成した。
参考スコア（独自算出の注目度）: 4.044600688588866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in peptide identification are revolutionizing our ability to decipher protein functions and accelerate therapeutic discovery. We present PDeepPP, a deep learning framework that integrates pretrained protein language models with parallel transformer-CNN architectures, achieving state-of-the-art performance in peptide characterization tasks. The model's hybrid architecture demonstrates unique capabilities in capturing both local sequence motifs and global structural features, as evidenced by 29% improved cluster separation in UMAP visualizations compared to conventional approaches. Evaluated across 33 biological recognition tasks - including post-translational modification site prediction and bioactive peptide identification - PDeepPP outperformed existing methods in 25 tasks with average AUC improvements of 4.2%. Notably, it achieved 0.9726 accuracy with PR AUC 0.9977 in antimicrobial peptide detection while reducing false negatives by 37.5% in antimalarial recognition scenarios. This framework enables accurate large-scale peptide analysis, achieving 218* acceleration over sequence-alignment-based methods while maintaining 99.5% specificity in critical glycosylation site detection.PDeepPP establishes a new paradigm for computational peptide analysis through its synergistic architecture design, enabling rapid yet precise functional annotation that bridges molecular pattern recognition with translational biomedical applications.We have made our implementation, including code, data, and pretrained models, publicly available via GitHub (https://github.com/fondress/PDeepPP) and Hugging Face (https://huggingface.co/fondress/PDeppPP).
Abstract（参考訳）: ペプチドの同定の進歩は、タンパク質の機能を解読し、治療の発見を加速する能力に革命をもたらしている。本稿では,プレトレーニングされたタンパク質言語モデルと並列トランスフォーマー-CNNアーキテクチャを統合したディープラーニングフレームワークPDeepPPについて述べる。モデルのハイブリッドアーキテクチャは、局所的なシーケンスモチーフとグローバルな構造特徴の両方をキャプチャするユニークな機能を示している。翻訳後修飾部位の予測や生理活性ペプチドの同定を含む33の生物学的認識タスクで評価され、PDeepPPは25のタスクで既存の手法より優れ、平均AUCは4.2%改善した。特に、PR AUC 0.9977による抗微生物ペプチド検出の精度は0.9726で、偽陰性は37.5%低下した。 PDeepPPは、その相乗的アーキテクチャ設計を通じて計算ペプチド分析の新しいパラダイムを確立し、分子パターン認識と翻訳生物医学的応用を橋渡しする高速かつ正確な機能的アノテーションを可能にした。我々は、コード、データ、事前訓練されたモデルを含む実装をGitHub(https://github.com/fondress/PDeepPP)とHugging Face(https://huggingface.co/fondress/PDeppPP)で公開しました。

関連論文リスト

A Multimodal Human Protein Embeddings Database: DeepDrug Protein Embeddings Bank (DPEB) [0.3822990432531661]
DPEB(DPEB)は、4つの埋め込み型を統合した22,043個のヒトタンパク質のキュレートされたコレクションである。 DPEBは、PPI予測のための複数のグラフニューラルネットワークメソッドをサポートしている。
論文参考訳（メタデータ） (2025-10-24T20:22:17Z)
ResCap-DBP: A Lightweight Residual-Capsule Network for Accurate DNA-Binding Protein Prediction Using Global ProteinBERT Embeddings [9.626183317998143]
本稿では,残差学習に基づくエンコーダと1次元カプセルネットワークを組み合わせた新しいディープラーニングフレームワークResCap-DBPを提案する。 ProteinBERTの埋め込みは、大きなデータセット上の他の表現を大幅に上回る。我々のモデルは、常に現在の最先端の手法より優れています。
論文参考訳（メタデータ） (2025-07-27T21:54:32Z)
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [80.08310253195144]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。 PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文参考訳（メタデータ） (2025-07-07T15:21:05Z)
ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文参考訳（メタデータ） (2024-12-28T04:23:47Z)
Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文参考訳（メタデータ） (2024-11-22T20:13:55Z)
MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文参考訳（メタデータ） (2024-11-04T07:14:28Z)
Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision [7.275932354889042]
異なる性質を持つタンパク質配列を生成するのに適したタンパク質言語モデルを導入する。生成した配列をそれらの難易度スコアに基づいてランク付けし、タンパク質の許容凸殻の外にある配列をフィルタリングする。溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
論文参考訳（メタデータ） (2024-10-25T00:15:39Z)
Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文参考訳（メタデータ） (2024-07-02T20:13:47Z)
ContactNet: Geometric-Based Deep Learning Model for Predicting Protein-Protein Interactions [2.874893537471256]
我々は,PPIモデルを正確かつ誤ったものに分類するための新しい注目型グラフニューラルネットワーク(GNN)であるContactNetを開発した。ドッキング抗原やモデル抗体構造を訓練すると、ContactNetは現在の最先端のスコアリング機能の精度を2倍にする。
論文参考訳（メタデータ） (2024-06-26T12:54:41Z)
NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。 DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文参考訳（メタデータ） (2024-06-16T08:23:21Z)
PPFlow: Target-aware Peptide Design with Torsional Flow Matching [52.567714059931646]
ペプチド構造設計のためのねじれ角の内部構造をモデル化するために,textscPPFlowと呼ばれるターゲット認識型ペプチド設計手法を提案する。さらに, PPBench2024というタンパク質-ペプチド結合データセットを構築した。
論文参考訳（メタデータ） (2024-03-05T13:26:42Z)
MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。 MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文参考訳（メタデータ） (2024-02-22T09:04:41Z)
Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文参考訳（メタデータ） (2023-12-07T03:25:49Z)
PTransIPs: Identification of phosphorylation sites enhanced by protein PLM embeddings [2.971764950146918]
我々は,リン酸化部位の同定のための新しいディープラーニングフレームワークであるPTransIPsを開発した。 PTransIPsは既存のSOTA法より優れており、AUCは0.9232と0.9660である。
論文参考訳（メタデータ） (2023-08-08T07:50:38Z)
Efficient Prediction of Peptide Self-assembly through Sequential and Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文参考訳（メタデータ） (2023-07-17T00:43:33Z)
State-specific protein-ligand complex structure prediction with a multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文参考訳（メタデータ） (2022-09-30T01:46:38Z)
Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。 EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文参考訳（メタデータ） (2022-08-20T10:23:17Z)
From Static to Dynamic Structures: Improving Binding Affinity Prediction with Graph-Based Deep Learning [40.83037811977803]
Dynaformerは、タンパク質-リガンド結合親和性を予測するために開発されたグラフベースのディープラーニングモデルである。 CASF-2016ベンチマークデータセットでは、最先端のスコアとランキングの能力を示している。熱ショックタンパク質90(HSP90)の仮想スクリーニングにおいて、20の候補を同定し、それらの結合親和性を実験的に検証する。
論文参考訳（メタデータ） (2022-08-19T14:55:12Z)
Improved Drug-target Interaction Prediction with Intermolecular Graph Transformer [98.8319016075089]
本稿では,3方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化する手法を提案する。分子間グラフ変換器(IGT)は、それぞれ、結合活性と結合ポーズ予測の2番目のベストに対して、最先端のアプローチを9.1%と20.5%で上回っている。 IGTはSARS-CoV-2に対して有望な薬物スクリーニング能力を示す。
論文参考訳（メタデータ） (2021-10-14T13:28:02Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)
Assigning function to protein-protein interactions: a weakly supervised BioBERT based approach using PubMed abstracts [2.208694022993555]
タンパク質とタンパク質の相互作用(PPI)は正常細胞と疾患細胞のタンパク質の機能に重要である。タンパク質相互作用データベースで取得されるPPIのごく一部に、機能アノテーションがある。本稿では,PubMed の要約に記述された関係を抽出することで,PPIの関数型をラベル付けすることを目的とする。
論文参考訳（メタデータ） (2020-08-20T01:42:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。