論文の概要: A Novel Scalable Apache Spark Based Feature Extraction Approaches for
Huge Protein Sequence and their Clustering Performance Analysis
- arxiv url: http://arxiv.org/abs/2204.11835v1
- Date: Thu, 21 Apr 2022 11:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-01 08:50:27.545341
- Title: A Novel Scalable Apache Spark Based Feature Extraction Approaches for
Huge Protein Sequence and their Clustering Performance Analysis
- Title(参考訳): 大規模タンパク質配列のためのスケーラブルなApache Sparkに基づく特徴抽出手法とそのクラスタリング性能解析
- Authors: Preeti Jha, Aruna Tiwari, Neha Bharill, Milind Ratnaparkhe, Om Prakash
Patel, Nilagiri Harshith, Mukkamalla Mounika, Neha Nagendra
- Abstract要約: 我々はApache Sparkを使って巨大なタンパク質配列から特徴を抽出する2つのスケーラブルな特徴抽出手法を提案している。
提案した60d-SPFおよび6d-SCPFアプローチは、アミノ酸の統計的性質を捉え、固定長の数値特徴ベクトルを生成する。
提案手法の有効性を実証するために, 種々の大豆タンパク質のデータセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 0.1465840097113565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genome sequencing projects are rapidly increasing the number of
high-dimensional protein sequence datasets. Clustering a high-dimensional
protein sequence dataset using traditional machine learning approaches poses
many challenges. Many different feature extraction methods exist and are widely
used. However, extracting features from millions of protein sequences becomes
impractical because they are not scalable with current algorithms. Therefore,
there is a need for an efficient feature extraction approach that extracts
significant features. We have proposed two scalable feature extraction
approaches for extracting features from huge protein sequences using Apache
Spark, which are termed 60d-SPF (60-dimensional Scalable Protein Feature) and
6d-SCPSF (6-dimensional Scalable Co-occurrence-based Probability-Specific
Feature). The proposed 60d-SPF and 6d-SCPSF approaches capture the statistical
properties of amino acids to create a fixed-length numeric feature vector that
represents each protein sequence in terms of 60-dimensional and 6-dimensional
features, respectively. The preprocessed huge protein sequences are used as an
input in two clustering algorithms, i.e., Scalable Random Sampling with
Iterative Optimization Fuzzy c-Means (SRSIO-FCM) and Scalable Literal Fuzzy
C-Means (SLFCM) for clustering. We have conducted extensive experiments on
various soybean protein datasets to demonstrate the effectiveness of the
proposed feature extraction methods, 60d-SPF, 6d-SCPSF, and existing feature
extraction methods on SRSIO-FCM and SLFCM clustering algorithms. The reported
results in terms of the Silhouette index and the Davies-Bouldin index show that
the proposed 60d-SPF extraction method on SRSIO-FCM and SLFCM clustering
algorithms achieves significantly better results than the proposed 6d-SCPSF and
existing feature extraction approaches.
- Abstract(参考訳): ゲノムシーケンシングプロジェクトは、高次元タンパク質配列データセットの数を急速に増加させている。
従来の機械学習アプローチによる高次元タンパク質配列データセットのクラスタリングには、多くの課題がある。
多くの異なる特徴抽出法があり、広く使われている。
しかし、現在のアルゴリズムでは拡張性がないため、何百万ものタンパク質配列から特徴を抽出することは現実的ではない。
したがって、重要な特徴を抽出する効率的な特徴抽出アプローチが必要となる。
我々は,60d-SPF (60-dimensional Scalable Protein Feature) と6d-SCPSF (6-dimensional Scalable Co-occurrence-based Probability-Specific Feature) と呼ばれるApache Sparkを用いて,巨大タンパク質配列から特徴を抽出する2つのスケーラブルな特徴抽出手法を提案する。
提案する60d-spfおよび6d-scpsfアプローチは,アミノ酸の統計特性を捉え,各タンパク質配列を60次元および6次元で表現する固定長の数値特徴ベクトルを生成する。
プリプロセスされた巨大なタンパク質配列は、2つのクラスタリングアルゴリズム、すなわち、反復最適化ファジィc-Means(SRSIO-FCM)とクラスタリングのためのスケーラブルリテラルファジィC-Means(SLFCM)の入力として使用される。
提案する特徴抽出法, 60d-SPF, 6d-SCPSF, SRSIO-FCM および SLFCM クラスタリングアルゴリズムにおける既存の特徴抽出法の有効性を実証するために, 種々の大豆タンパク質データセットについて広範な実験を行った。
その結果,SRSIO-FCMとSLFCMクラスタリングアルゴリズムを用いた60d-SPF抽出法は,提案した6d-SCPSFと既存の特徴抽出手法よりも有意に優れた結果が得られることがわかった。
関連論文リスト
- Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Adaptive Graph Convolutional Subspace Clustering [10.766537212211217]
スペクトル型サブスペースクラスタリングアルゴリズムは多くのサブスペースクラスタリングアプリケーションにおいて優れた性能を示している。
本稿では,グラフ畳み込みネットワークにヒントを得たグラフ畳み込み手法を用いて特徴抽出法と係数行列制約を同時に開発する。
AGCSCを用いることで、元のデータサンプルの集合的特徴表現がサブスペースクラスタリングに適していると主張する。
論文 参考訳(メタデータ) (2023-05-05T10:27:23Z) - Fast conformational clustering of extensive molecular dynamics
simulation data [19.444636864515726]
本稿では,長い軌道の高速なコンフォーメーションクラスタリングを実現するために,教師なしのデータ処理ワークフローを提案する。
我々は密度に基づく空間クラスタリングアルゴリズム(HDBSCAN)と2つの次元削減アルゴリズム(cc_analysisとEncodermap)を組み合わせる。
4つのテストシステムの助けを借りて、このクラスタリングワークフローの機能とパフォーマンスを説明します。
論文 参考訳(メタデータ) (2023-01-11T14:36:43Z) - Feature Weighted Non-negative Matrix Factorization [92.45013716097753]
本稿では,FNMF(Feature weighted Non- negative Matrix Factorization)を提案する。
FNMFはその重要性に応じて特徴の重みを適応的に学習する。
提案する最適化アルゴリズムを用いて効率的に解くことができる。
論文 参考訳(メタデータ) (2021-03-24T21:17:17Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Sequential Subspace Search for Functional Bayesian Optimization
Incorporating Experimenter Intuition [63.011641517977644]
本アルゴリズムは,実験者のガウス過程から引き出された一組の引き数で区切られた関数空間の有限次元ランダム部分空間列を生成する。
標準ベイズ最適化は各部分空間に適用され、次の部分空間の出発点(オリジン)として用いられる最良の解である。
シミュレーションおよび実世界の実験,すなわちブラインド関数マッチング,アルミニウム合金の最適析出強化関数の探索,深層ネットワークの学習速度スケジュール最適化において,本アルゴリズムを検証した。
論文 参考訳(メタデータ) (2020-09-08T06:54:11Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Fibonacci and k-Subsecting Recursive Feature Elimination [2.741266294612776]
特徴選択は、分類アルゴリズムを高速化する可能性のあるデータマイニングタスクである。
本稿では、Fibonacciとk-Subsecting Recursive Feature Eliminationという2つの新しいアルゴリズムを提案する。
その結果、Fibonacci と k-Subsecting Recursive Feature Elimination は標準 RFE よりもはるかに高速に機能の小さなサブセットを選択することができることがわかった。
論文 参考訳(メタデータ) (2020-07-29T15:53:04Z) - A Manifold Proximal Linear Method for Sparse Spectral Clustering with
Application to Single-Cell RNA Sequencing Data Analysis [9.643152256249884]
本稿では,SSCモデルを非滑らかかつ非客観的な最適化モデルとして広く採用している。
本研究では,従来のSSC問題を解く新しい手法(ManPL)を提案する。
提案手法の結果が得られた。
論文 参考訳(メタデータ) (2020-07-18T22:05:00Z) - Supervised Feature Subset Selection and Feature Ranking for Multivariate
Time Series without Feature Extraction [78.84356269545157]
MTS分類のための教師付き特徴ランキングと特徴サブセット選択アルゴリズムを導入する。
MTSの既存の教師なし特徴選択アルゴリズムとは異なり、我々の手法は時系列から一次元特徴ベクトルを生成するために特徴抽出ステップを必要としない。
論文 参考訳(メタデータ) (2020-05-01T07:46:29Z) - IVFS: Simple and Efficient Feature Selection for High Dimensional
Topology Preservation [33.424663018395684]
本稿では,サンプル類似性保存を向上する簡易かつ効果的な特徴選択アルゴリズムを提案する。
提案アルゴリズムは、全データの対距離と位相パターンを適切に保存することができる。
論文 参考訳(メタデータ) (2020-04-02T23:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。