論文の概要: Multi-Scale Representation Learning on Proteins
- arxiv url: http://arxiv.org/abs/2204.02337v1
- Date: Mon, 4 Apr 2022 08:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 03:27:00.191843
- Title: Multi-Scale Representation Learning on Proteins
- Title(参考訳): タンパク質のマルチスケール表現学習
- Authors: Vignesh Ram Somnath, Charlotte Bunne, Andreas Krause
- Abstract要約: 本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
- 参考スコア(独自算出の注目度): 78.31410227443102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proteins are fundamental biological entities mediating key roles in cellular
function and disease. This paper introduces a multi-scale graph construction of
a protein -- HoloProt -- connecting surface to structure and sequence. The
surface captures coarser details of the protein, while sequence as primary
component and structure -- comprising secondary and tertiary components --
capture finer details. Our graph encoder then learns a multi-scale
representation by allowing each level to integrate the encoding from level(s)
below with the graph at that level. We test the learned representation on
different tasks, (i.) ligand binding affinity (regression), and (ii.) protein
function prediction (classification). On the regression task, contrary to
previous methods, our model performs consistently and reliably across different
dataset splits, outperforming all baselines on most splits. On the
classification task, it achieves a performance close to the top-performing
model while using 10x fewer parameters. To improve the memory efficiency of our
construction, we segment the multiplex protein surface manifold into molecular
superpixels and substitute the surface with these superpixels at little to no
performance loss.
- Abstract(参考訳): タンパク質は細胞機能と疾患において重要な役割を媒介する基本的な生物学的実体である。
本稿では,構造と配列を結合するタンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、一次成分と構造としての配列は二次成分と第三成分からなる。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
我々は,異なるタスク,すなわちリガンド結合親和性(回帰),および(二)タンパク質機能予測(分類)で学習された表現を検証した。
回帰タスクでは、従来の方法とは対照的に、このモデルは異なるデータセットの分割に対して一貫して確実に動作し、ほとんどの分割ですべてのベースラインを上回っています。
分類タスクでは、10倍少ないパラメータを使用しながら、トップパフォーマンスモデルに近いパフォーマンスを達成する。
構築のメモリ効率を向上させるため、多重化タンパク質表面多様体を分子スーパーピクセルに分割し、これらのスーパーピクセルで表面をほとんど性能損失なく置換する。
関連論文リスト
- Exploiting Hierarchical Interactions for Protein Surface Learning [52.10066114039307]
本質的には、タンパク質表面のポテンシャル関数部位は、幾何学的特徴と化学的特徴の両方によって決定される。
本稿では,ディープラーニング技術,すなわち階層型化学・幾何学的特徴相互作用ネットワーク(HCGNet)に基づく原則的フレームワークを提案する。
提案手法は,現場予測タスクが2.3%,インタラクションマッチングタスクが3.2%,従来の最先端手法が2.3%向上した。
論文 参考訳(メタデータ) (2024-01-17T14:10:40Z) - Deep Manifold Transformation for Protein Representation Learning [42.43017670985785]
ユニバーサルアンダーラインタンパク質アンダーライン変換(DMTPRL)のための新しいアンダーラインディープアンダーラインマンフォールドアンダーライントランスアプローチを提案する。
学習した埋め込みの品質と適応性を改善するために、多様体学習戦略を採用している。
DMTPRL法は、一般的なデータセットをまたいだ様々な下流タスクにおける最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-01-12T18:38:14Z) - Diffusion-based Data Augmentation for Nuclei Image Segmentation [68.28350341833526]
核セグメンテーションのための拡散法を初めて導入する。
このアイデアは、多数のラベル付き画像を合成し、セグメンテーションモデルを訓練することを目的としている。
実験の結果,10%のラベル付き実データセットを合成サンプルで拡張することにより,同等のセグメンテーション結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-22T06:16:16Z) - Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。
追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文 参考訳(メタデータ) (2023-05-07T12:30:24Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。