論文の概要: Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction
- arxiv url: http://arxiv.org/abs/2112.00344v1
- Date: Wed, 1 Dec 2021 08:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:57:15.352835
- Title: Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction
- Title(参考訳): タンパク質機能予測のための待ち行列埋め込みと畳み込みニューラルネットワーク
- Authors: Wei-Cheng Tseng, Po-Han Chi, Jia-Hua Wu, Min Sun
- Abstract要約: タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
- 参考スコア(独自算出の注目度): 27.212743275697825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability of accurate prediction of protein functions and properties is
essential in the biotechnology industry, e.g. drug development and artificial
protein synthesis, etc. The main challenges of protein function prediction are
the large label space and the lack of labeled training data. Our method
leverages unsupervised sequence embedding and the success of deep convolutional
neural network to overcome these challenges. In contrast, most of the existing
methods delete the rare protein functions to reduce the label space.
Furthermore, some existing methods require additional bio-information (e.g.,
the 3-dimensional structure of the proteins) which is difficult to be
determined in biochemical experiments. Our proposed method significantly
outperforms the other methods on the publicly available benchmark using only
protein sequences as input. This allows the process of identifying protein
functions to be sped up.
- Abstract(参考訳): タンパク質の機能や特性を正確に予測する能力は、医薬品開発や人工タンパク質合成など、バイオテクノロジー産業において不可欠である。
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
対照的に、既存の手法のほとんどはラベル空間を減らすためにレアタンパク質の機能を削除する。
さらに、いくつかの既存の方法は、生化学的実験で決定が難しい追加の生体情報(タンパク質の3次元構造など)を必要とする。
提案手法は,タンパク質配列のみを入力として,公開ベンチマークの他の手法を著しく上回っている。
これにより、タンパク質の機能を特定するプロセスが加速される。
関連論文リスト
- Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - Unbiased organism-agnostic and highly sensitive signal peptide predictor
with deep protein language model [12.37352652557512]
シグナルペプチド(Signal peptide、SP)は、タンパク質のN末端に位置する短いペプチドである。
本稿では,信号ペプチド分類と切断部位予測深層学習法であるunbiased Organism-Agnostic Signal peptide Network (USPNet)を提案する。
本稿では,データ不均衡問題に対処するためにラベル分布を考慮したマージン損失を適用し,タンパク質の進化情報を用いて表現を豊かにする手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T14:32:48Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - End-to-End Optimized Pipeline for Prediction of Protein Folding Kinetics [0.0]
本研究では,タンパク質の折り畳み速度を高精度かつ低メモリフットプリントで予測する効率的なパイプラインを提案する。
デプロイされた機械学習(ML)モデルは、最先端のMLモデルよりも精度が4.8%向上し、327倍のメモリを消費し、7.3%高速になった。
論文 参考訳(メタデータ) (2023-09-17T07:35:54Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - A Text-guided Protein Design Framework [109.18157766856196]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。