Fugu-MT 論文翻訳(概要): Clustering for Protein Representation Learning

論文の概要: Clustering for Protein Representation Learning

arxiv url: http://arxiv.org/abs/2404.00254v1
Date: Sat, 30 Mar 2024 05:51:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 04:40:03.659006
Title: Clustering for Protein Representation Learning
Title（参考訳）: タンパク質表現学習のためのクラスタリング
Authors: Ruijie Quan, Wenguan Wang, Fan Ma, Hehe Fan, Yi Yang,
Abstract要約: 本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
参考スコア（独自算出の注目度）: 72.72957540484664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Protein representation learning is a challenging task that aims to capture the structure and function of proteins from their amino acid sequences. Previous methods largely ignored the fact that not all amino acids are equally important for protein folding and activity. In this article, we propose a neural clustering framework that can automatically discover the critical components of a protein by considering both its primary and tertiary structure information. Our framework treats a protein as a graph, where each node represents an amino acid and each edge represents a spatial or sequential connection between amino acids. We then apply an iterative clustering strategy to group the nodes into clusters based on their 1D and 3D positions and assign scores to each cluster. We select the highest-scoring clusters and use their medoid nodes for the next iteration of clustering, until we obtain a hierarchical and informative representation of the protein. We evaluate on four protein-related tasks: protein fold classification, enzyme reaction classification, gene ontology term prediction, and enzyme commission number prediction. Experimental results demonstrate that our method achieves state-of-the-art performance.
Abstract（参考訳）: タンパク質表現学習は、アミノ酸配列からタンパク質の構造と機能を捉えることを目的とした課題である。それまでの方法は、すべてのアミノ酸がタンパク質の折り畳みや活性に等しく重要であるわけではないという事実をほとんど無視していた。本稿では,タンパク質の一次構造情報と第三次構造情報の両方を考慮し,タンパク質の臨界成分を自動的に検出するニューラルネットワーク・クラスタリング・フレームワークを提案する。我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。次に、反復的なクラスタリング戦略を適用し、1Dと3Dの位置に基づいてノードをクラスタにグループ化し、各クラスタにスコアを割り当てる。最上位のクラスタを選択し、それらのメドイドノードをクラスタリングの次のイテレーションに使用し、タンパク質の階層的かつ情報的表現を得る。タンパク質の折り畳み分類, 酵素反応分類, 遺伝子オントロジーの項予測, 酵素コミッショニング数予測の4つの課題について検討した。実験により,本手法が最先端性能を実現することを示す。

関連論文リスト

Protein Secondary Structure Prediction Using 3D Graphs and Relation-Aware Message Passing Transformers [26.044929670768]
本研究では,タンパク質一次配列から二次構造を予測するという課題に取り組む。タンパク質残基グラフを用いて、空間情報の強化を図り、様々な形態の逐次的または構造的接続を導入する。複数の畳み込み層を積み重ねて、タンパク質の空間グラフから組み合わせた洞察を効率的に学習する。
論文参考訳（メタデータ） (2025-11-17T18:39:13Z)
S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文参考訳（メタデータ） (2025-11-10T11:57:47Z)
GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文参考訳（メタデータ） (2024-07-31T17:54:22Z)
Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文参考訳（メタデータ） (2024-06-28T08:54:37Z)
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (2024-05-21T08:06:13Z)
NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文参考訳（メタデータ） (2024-03-21T13:27:57Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文参考訳（メタデータ） (2022-04-04T08:29:17Z)
Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文参考訳（メタデータ） (2022-03-11T17:52:13Z)
Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文参考訳（メタデータ） (2021-11-03T01:58:16Z)
BERTology Meets Biology: Interpreting Attention in Protein Language Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文参考訳（メタデータ） (2020-06-26T21:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。