Fugu-MT 論文翻訳(概要): Profile Prediction: An Alignment-Based Pre-Training Task for Protein Sequence Models

論文の概要: Profile Prediction: An Alignment-Based Pre-Training Task for Protein Sequence Models

arxiv url: http://arxiv.org/abs/2012.00195v1
Date: Tue, 1 Dec 2020 01:01:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-30 19:34:29.051723
Title: Profile Prediction: An Alignment-Based Pre-Training Task for Protein Sequence Models
Title（参考訳）: プロファイル予測:タンパク質配列モデルのアライメントに基づく事前学習タスク
Authors: Pascal Sturmfels, Jesse Vig, Ali Madani, Nazneen Fatema Rajani
Abstract要約: タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
参考スコア（独自算出の注目度）: 11.483725773928382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For protein sequence datasets, unlabeled data has greatly outpaced labeled data due to the high cost of wet-lab characterization. Recent deep-learning approaches to protein prediction have shown that pre-training on unlabeled data can yield useful representations for downstream tasks. However, the optimal pre-training strategy remains an open question. Instead of strictly borrowing from natural language processing (NLP) in the form of masked or autoregressive language modeling, we introduce a new pre-training task: directly predicting protein profiles derived from multiple sequence alignments. Using a set of five, standardized downstream tasks for protein models, we demonstrate that our pre-training task along with a multi-task objective outperforms masked language modeling alone on all five tasks. Our results suggest that protein sequence models may benefit from leveraging biologically-inspired inductive biases that go beyond existing language modeling techniques in NLP.
Abstract（参考訳）: タンパク質配列データセットでは、ラベルなしのデータがラベル付きデータを大幅に上回っている。タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示した。しかし、最適な事前学習戦略は未解決のままである。自然言語処理(nlp)からマスクや自己回帰型言語モデリングの形で厳密に借用する代わりに、複数の配列アライメントから派生したタンパク質プロファイルを直接予測する新しい事前学習タスクを導入する。タンパク質モデルのための標準化された5つの下流タスクのセットを用いて、我々の事前学習タスクとマルチタスク目的タスクが5つのタスクすべてにおいてマスク付き言語モデリングよりも優れていることを示す。以上の結果から,タンパク質配列モデルは,NLPの既存の言語モデリング技術を超えて生物学的にインスパイアされた誘導バイアスを活用できる可能性が示唆された。

関連論文リスト

SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文参考訳（メタデータ） (2024-11-18T12:40:39Z)
Metalic: Meta-Learning In-Context with Protein Language Models [5.868595531658237]
このような予測タスクの有望なテクニックとして機械学習が登場した。データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。
論文参考訳（メタデータ） (2024-10-10T20:19:35Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文参考訳（メタデータ） (2023-07-24T07:01:32Z)
Reprogramming Pretrained Language Models for Protein Sequence Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。 R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-05T15:55:18Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。