論文の概要: Clustering for Protein Representation Learning
- arxiv url: http://arxiv.org/abs/2404.00254v1
- Date: Sat, 30 Mar 2024 05:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:40:03.659006
- Title: Clustering for Protein Representation Learning
- Title(参考訳): タンパク質表現学習のためのクラスタリング
- Authors: Ruijie Quan, Wenguan Wang, Fan Ma, Hehe Fan, Yi Yang,
- Abstract要約: 本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
- 参考スコア(独自算出の注目度): 72.72957540484664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein representation learning is a challenging task that aims to capture the structure and function of proteins from their amino acid sequences. Previous methods largely ignored the fact that not all amino acids are equally important for protein folding and activity. In this article, we propose a neural clustering framework that can automatically discover the critical components of a protein by considering both its primary and tertiary structure information. Our framework treats a protein as a graph, where each node represents an amino acid and each edge represents a spatial or sequential connection between amino acids. We then apply an iterative clustering strategy to group the nodes into clusters based on their 1D and 3D positions and assign scores to each cluster. We select the highest-scoring clusters and use their medoid nodes for the next iteration of clustering, until we obtain a hierarchical and informative representation of the protein. We evaluate on four protein-related tasks: protein fold classification, enzyme reaction classification, gene ontology term prediction, and enzyme commission number prediction. Experimental results demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): タンパク質表現学習は、アミノ酸配列からタンパク質の構造と機能を捉えることを目的とした課題である。
それまでの方法は、すべてのアミノ酸がタンパク質の折り畳みや活性に等しく重要であるわけではないという事実をほとんど無視していた。
本稿では,タンパク質の一次構造情報と第三次構造情報の両方を考慮し,タンパク質の臨界成分を自動的に検出するニューラルネットワーク・クラスタリング・フレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
次に、反復的なクラスタリング戦略を適用し、1Dと3Dの位置に基づいてノードをクラスタにグループ化し、各クラスタにスコアを割り当てる。
最上位のクラスタを選択し、それらのメドイドノードをクラスタリングの次のイテレーションに使用し、タンパク質の階層的かつ情報的表現を得る。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子オントロジーの項予測, 酵素コミッショニング数予測の4つの課題について検討した。
実験により,本手法が最先端性能を実現することを示す。
関連論文リスト
- GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文 参考訳(メタデータ) (2024-07-31T17:54:22Z) - Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。
それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。
この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文 参考訳(メタデータ) (2021-11-03T01:58:16Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。