論文の概要: Deep Manifold Transformation for Protein Representation Learning
- arxiv url: http://arxiv.org/abs/2402.09416v1
- Date: Fri, 12 Jan 2024 18:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 13:30:19.607065
- Title: Deep Manifold Transformation for Protein Representation Learning
- Title(参考訳): タンパク質表現学習のための深いマニフォールド変換
- Authors: Bozhen Hu, Zelin Zang, Cheng Tan, Stan Z. Li
- Abstract要約: ユニバーサルアンダーラインタンパク質アンダーライン変換(DMTPRL)のための新しいアンダーラインディープアンダーラインマンフォールドアンダーライントランスアプローチを提案する。
学習した埋め込みの品質と適応性を改善するために、多様体学習戦略を採用している。
DMTPRL法は、一般的なデータセットをまたいだ様々な下流タスクにおける最先端のベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 42.43017670985785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein representation learning is critical in various tasks in biology, such
as drug design and protein structure or function prediction, which has
primarily benefited from protein language models and graph neural networks.
These models can capture intrinsic patterns from protein sequences and
structures through masking and task-related losses. However, the learned
protein representations are usually not well optimized, leading to performance
degradation due to limited data, difficulty adapting to new tasks, etc. To
address this, we propose a new \underline{d}eep \underline{m}anifold
\underline{t}ransformation approach for universal \underline{p}rotein
\underline{r}epresentation \underline{l}earning (DMTPRL). It employs manifold
learning strategies to improve the quality and adaptability of the learned
embeddings. Specifically, we apply a novel manifold learning loss during
training based on the graph inter-node similarity. Our proposed DMTPRL method
outperforms state-of-the-art baselines on diverse downstream tasks across
popular datasets. This validates our approach for learning universal and robust
protein representations. We promise to release the code after acceptance.
- Abstract(参考訳): タンパク質表現学習は、主にタンパク質言語モデルやグラフニューラルネットワークの恩恵を受ける薬物設計やタンパク質構造、機能予測など、生物学における様々なタスクにおいて重要である。
これらのモデルは、マスキングとタスク関連の損失を通じて、タンパク質の配列や構造から内在的なパターンを捉えることができる。
しかし、学習したタンパク質表現は、通常、十分に最適化されていないため、限られたデータによるパフォーマンス劣化、新しいタスクへの適応の困難などを引き起こす。
これに対処するために,universal \underline{p}rotein \underline{r}epresentation \underline{l}earning (dmtprl) に対する新しい\underline{d}eep \underline{m}anifold \underline{t}ransformationアプローチを提案する。
多様体学習戦略を採用し、学習された埋め込みの品質と適応性を向上させる。
具体的には,グラフのノード間類似性に基づく学習中の新しい多様体学習損失を適用する。
DMTPRL法は、一般的なデータセットの様々な下流タスクにおける最先端のベースラインよりも優れている。
これは、普遍的かつロバストなタンパク質表現を学ぶための我々のアプローチを検証する。
受け入れ後、コードのリリースを約束します。
関連論文リスト
- Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Boosting Convolutional Neural Networks' Protein Binding Site Prediction
Capacity Using SE(3)-invariant transformers, Transfer Learning and
Homology-based Augmentation [1.160208922584163]
標的タンパク質の小さな結合部位を、ポケットや残基の分解能で見つけることは、実際の薬物発見のシナリオにおいて重要である。
そこで本研究では,実世界のアプリケーションに関係のある,結合サイト予測のための新しい計算手法を提案する。
論文 参考訳(メタデータ) (2023-02-20T05:02:40Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。