論文の概要: Is Transfer Learning Necessary for Protein Landscape Prediction?
- arxiv url: http://arxiv.org/abs/2011.03443v1
- Date: Sat, 31 Oct 2020 20:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 05:21:27.598962
- Title: Is Transfer Learning Necessary for Protein Landscape Prediction?
- Title(参考訳): トランスファー学習はタンパク質の景観予測に必要か?
- Authors: Amir Shanehsazzadeh, David Belanger, David Dohan
- Abstract要約: 教師付き学習のみを用いて訓練されたCNNモデルは、TAPEの最良のモデルと競合し、時には上回っていることを示す。
TAPEが提案するベンチマークタスクは、モデルがタンパク質機能を予測する能力の優れた測定方法であり、今後使用されるべきである。
- 参考スコア(独自算出の注目度): 14.098875826640883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been great interest in learning how to best represent
proteins, specifically with fixed-length embeddings. Deep learning has become a
popular tool for protein representation learning as a model's hidden layers
produce potentially useful vector embeddings. TAPE introduced a number of
benchmark tasks and showed that semi-supervised learning, via pretraining
language models on a large protein corpus, improved performance on downstream
tasks. Two of the tasks (fluorescence prediction and stability prediction)
involve learning fitness landscapes. In this paper, we show that CNN models
trained solely using supervised learning both compete with and sometimes
outperform the best models from TAPE that leverage expensive pretraining on
large protein datasets. These CNN models are sufficiently simple and small that
they can be trained using a Google Colab notebook. We also find for the
fluorescence task that linear regression outperforms our models and the TAPE
models. The benchmarking tasks proposed by TAPE are excellent measures of a
model's ability to predict protein function and should be used going forward.
However, we believe it is important to add baselines from simple models to put
the performance of the semi-supervised models that have been reported so far
into perspective.
- Abstract(参考訳): 近年、タンパク質の表現方法、特に固定長埋め込みの学習に大きな関心が寄せられている。
ディープラーニングは、モデルの隠れた層が潜在的に有用なベクトル埋め込みを生成するため、タンパク質表現学習の一般的なツールとなっている。
TAPEは、多数のベンチマークタスクを導入し、大きなタンパク質コーパス上で言語モデルを事前訓練することで、下流タスクのパフォーマンスを向上させるセミ教師付き学習を示した。
2つのタスク(蛍光予測と安定性予測)は、フィットネスのランドスケープを学ぶことです。
本稿では,教師付き学習のみを用いて学習したcnnモデルが,大規模タンパク質データセット上で高価な事前学習を利用するテープの最良のモデルと競合し,時として勝っていることを示す。
これらのCNNモデルは十分にシンプルで小さく、Google Colabノートブックを使ってトレーニングすることができる。
また、線形回帰が我々のモデルとTAPEモデルより優れる蛍光タスクについても調べる。
TAPEが提案するベンチマークタスクは、モデルがタンパク質機能を予測する能力の優れた測定方法であり、今後使用されるべきである。
しかし,これまでに報告されている半教師付きモデルの性能を考慮に入れるためには,単純なモデルからベースラインを追加することが重要である。
関連論文リスト
- Metalic: Meta-Learning In-Context with Protein Language Models [5.868595531658237]
このような予測タスクの有望なテクニックとして機械学習が登場した。
データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。
論文 参考訳(メタデータ) (2024-10-10T20:19:35Z) - Evolving Subnetwork Training for Large Language Models [19.54861230097017]
我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。
ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。
GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
論文 参考訳(メタデータ) (2024-06-11T05:44:56Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。