論文の概要: Natural language processing for clusterization of genes according to
their functions
- arxiv url: http://arxiv.org/abs/2207.08162v1
- Date: Sun, 17 Jul 2022 12:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:15:59.290249
- Title: Natural language processing for clusterization of genes according to
their functions
- Title(参考訳): 機能に応じた遺伝子のクラスター化のための自然言語処理
- Authors: Vladislav Dordiuk, Ekaterina Demicheva, Fernando Polanco Espino,
Konstantin Ushenin
- Abstract要約: 本稿では,数千の遺伝子の解析を減らし,複数のクラスタの解析を行うアプローチを提案する。
これらの記述は、事前訓練された言語モデル(BERT)といくつかのテキスト処理アプローチを用いてベクトルとして符号化される。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are hundreds of methods for analysis of data obtained in
mRNA-sequencing. The most of them are focused on small number of genes. In this
study, we propose an approach that reduces the analysis of several thousand
genes to analysis of several clusters. The list of genes is enriched with
information from open databases. Then, the descriptions are encoded as vectors
using the pretrained language model (BERT) and some text processing approaches.
The encoded gene function pass through the dimensionality reduction and
clusterization. Aiming to find the most efficient pipeline, 180 cases of
pipeline with different methods in the major pipeline steps were analyzed. The
performance was evaluated with clusterization indexes and expert review of the
results.
- Abstract(参考訳): mRNAシークエンシングで得られたデータの分析には数百の方法がある。
多くは少数の遺伝子に焦点が当てられている。
本研究では,数千の遺伝子の解析を数個のクラスターの分析に還元する手法を提案する。
遺伝子のリストにはオープンデータベースからの情報が豊富に含まれている。
次に、事前訓練された言語モデル(BERT)といくつかのテキスト処理アプローチを用いて、記述をベクトルとして符号化する。
エンコードされた遺伝子機能は、次元の縮小とクラスター化を通り抜ける。
最も効率的なパイプラインを見つけるために、主要なパイプラインステップで異なるメソッドを持つ180のパイプラインケースを分析した。
評価にはクラスタ化指標と専門家による評価が用いられた。
関連論文リスト
- Robust Multi-view Co-expression Network Inference [8.697303234009528]
トランスクリプトームデータから遺伝子共発現ネットワークを推定することは、多くの課題をもたらす。
複数の独立研究から高次元グラフ推論のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T06:30:09Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - SGC: A semi-supervised pipeline for gene clustering using self-training
approach in gene co-expression networks [3.8073142980733]
本稿では,スペクトルネットワーク理論の数学に基づく遺伝子クラスタリングのための新しいパイプラインを提案する。
SGCは、教師なしの方法で高度に強化されたモジュールの計算を可能にする複数の新しいステップで構成されている。
実データにおいて,SGCが高密度化をもたらすことを示す。
論文 参考訳(メタデータ) (2022-09-21T14:51:08Z) - Comprehensive survey of computational learning methods for analysis of
gene expression data in genomics [7.717214217542406]
機械学習を含む計算解析手法は、ゲノム学や医学の分野で大きな影響を与えている。
本稿では,表現マイクロアレイデータの解析に使用される様々な統計・計算ツールについて概説する。
具体的には,不備な値(遺伝子発現)の計算方法,特徴遺伝子のスケーリング,次元減少のための特徴の選択と抽出,表現データの学習と解析について論じる。
論文 参考訳(メタデータ) (2022-02-07T05:53:13Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Exploiting Language Model for Efficient Linguistic Steganalysis: An
Empirical Study [23.311007481830647]
言語ステガナリシスを効果的に行うための2つの方法を提案する。
1つはRNNに基づく言語モデルの事前トレーニングであり、もう1つはシーケンスオートエンコーダの事前トレーニングである。
論文 参考訳(メタデータ) (2021-07-26T12:37:18Z) - Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length [78.42578316883271]
特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
論文 参考訳(メタデータ) (2021-03-05T18:58:32Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。