論文の概要: Predicting O-GlcNAcylation Sites in Mammalian Proteins with Transformers
and RNNs Trained with a New Loss Function
- arxiv url: http://arxiv.org/abs/2402.17131v1
- Date: Tue, 27 Feb 2024 01:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:13:52.872561
- Title: Predicting O-GlcNAcylation Sites in Mammalian Proteins with Transformers
and RNNs Trained with a New Loss Function
- Title(参考訳): 新しい損失機能を持つトランスフォーマーとrnnを用いた哺乳類タンパク質のo-glcnacylation部位の予測
- Authors: Pedro Seber
- Abstract要約: O-Glc Nacylationサイトを確実に予測する方法は、2023年まで利用できなかった。
この記事はまず、トランスフォーマーエンコーダを使ってこれらのメトリクスを改善することを試みた。
そこで我々は、重み付き焦点微分可能MCCと呼ばれる新しい損失関数を作成し、分類モデルの性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Glycosylation, a protein modification, has multiple essential functional and
structural roles. O-GlcNAcylation, a subtype of glycosylation, has the
potential to be an important target for therapeutics, but methods to reliably
predict O-GlcNAcylation sites had not been available until 2023; a 2021 review
correctly noted that published models were insufficient and failed to
generalize. Moreover, many are no longer usable. In 2023, a considerably better
RNN model with an F$_1$ score of 36.17% and an MCC of 34.57% on a large dataset
was published. This article first sought to improve these metrics using
transformer encoders. While transformers displayed high performance on this
dataset, their performance was inferior to that of the previously published
RNN. We then created a new loss function, which we call the weighted focal
differentiable MCC, to improve the performance of classification models. RNN
models trained with this new function display superior performance to models
trained using the weighted cross-entropy loss; this new function can also be
used to fine-tune trained models. A two-cell RNN trained with this loss
achieves state-of-the-art performance in O-GlcNAcylation site prediction with
an F$_1$ score of 38.82% and an MCC of 38.21% on that large dataset.
- Abstract(参考訳): タンパク質修飾であるグリコシル化は、複数の必須機能および構造的役割を持つ。
グリコシル化のサブタイプであるo-glcnacylationは、治療の重要な標的となる可能性があるが、o-glcnacylationサイトを確実に予測する手法は2023年まで存在しなかった。
さらに、多くはもはや使用できない。
2023年、f$_1$スコアのかなり優れたrnnモデルが36.17%、大規模なデータセット上のmccが34.57%出版された。
この記事はまず、トランスフォーマーエンコーダを使ってこれらのメトリクスを改善しようとした。
トランスフォーマーはこのデータセットで高いパフォーマンスを示したが、その性能は以前公開されたRNNよりも劣っていた。
そこで我々は、重み付き焦点微分可能MCCと呼ばれる新しい損失関数を作成し、分類モデルの性能を向上させる。
この新しい関数でトレーニングされたrnnモデルは、重み付きクロスエントロピー損失を使用してトレーニングされたモデルよりも優れたパフォーマンスを示す。
この損失でトレーニングされた2セルRNNは、O-GlcNAcylationサイトの予測において、F$_1$スコア38.82%、MCC38.21%の最先端のパフォーマンスを達成する。
関連論文リスト
- The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Performance of long short-term memory artificial neural networks in
nowcasting during the COVID-19 crisis [0.0]
COVID-19パンデミックにおけるLSTMのパフォーマンスは、動的因子モデル(DFM)と比較して比較される。
平均絶対誤差と根平均二乗誤差の両方の観点から、LSTMは変数/四分法の組み合わせの3分の2でより良い性能を得た。
LSTMへの解釈可能性の方法論が紹介され、付随する nowcast_lstm Python ライブラリで利用可能になった。
論文 参考訳(メタデータ) (2022-03-22T16:48:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - The effects of regularisation on RNN models for time series forecasting:
Covid-19 as an example [2.5397218862229254]
本稿では,他のニューラルネットワークよりもフレキシブルなモデルを提案する。
小型データのパフォーマンスを改善するため,6つの正規化方法がテストされた。
わずか28日間のデータで訓練されたGRUモデルにDropoutを適用することでRMSEは23%減少した。
論文 参考訳(メタデータ) (2021-05-09T10:50:57Z) - Danish Fungi 2020 -- Not Just Another Image Recognition Dataset [0.0]
デンマークのFungi 2020(DF20)という新しいきめ細かいデータセットとベンチマークを紹介します。
データセットはデンマークの菌類アトラスに提出された観測結果から構築されている。
df20はimagenetと重複しないため、imagenetの公開チェックポイントから微調整されたモデルの偏りのない比較が可能になる。
論文 参考訳(メタデータ) (2021-03-18T09:33:11Z) - Spherical coordinates transformation pre-processing in Deep Convolution
Neural Networks for brain tumor segmentation in MRI [0.0]
深層畳み込みニューラルネットワーク(DCNN)は、最近非常に有望な結果を示している。
DCNNモデルは、優れたパフォーマンスを達成するために、大きな注釈付きデータセットが必要です。
本研究では,DCNNモデルの精度を向上させるために3次元球面座標変換を仮定した。
論文 参考訳(メタデータ) (2020-08-17T05:11:05Z) - Missing Features Reconstruction Using a Wasserstein Generative
Adversarial Imputation Network [0.0]
特徴再構成における生成モデルと非生成モデルの使用について実験的に検討した。
任意条件付き生成オートエンコーダ(VAEAC)とGAIN(Generative Adversarial Imputation Network)を生成モデルの代表として研究した。
WGAIN を GAIN のワッサースタイン修飾法として導入し,欠損度が 30% 以下である場合に最も優れた計算モデルであることが判明した。
論文 参考訳(メタデータ) (2020-06-21T11:53:55Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。