論文の概要: Nearest Neighbor CCP-Based Molecular Sequence Analysis
- arxiv url: http://arxiv.org/abs/2409.04922v1
- Date: Sat, 7 Sep 2024 22:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:10:34.427976
- Title: Nearest Neighbor CCP-Based Molecular Sequence Analysis
- Title(参考訳): 隣り合うCCPに基づく分子配列解析
- Authors: Sarwan Ali, Prakash Chourasia, Bipin Koirala, Murray Patterson,
- Abstract要約: Corelated Clustering and Projection (CCP) は生物学的シークエンシングデータに有効な方法として提案されている。
分子シークエンスデータを効率的に前処理するためのCCP-NN(Nearest Neighbor Correlated Clustering and Projection)に基づく手法を提案する。
以上の結果から,CCP-NNは分類タスクの精度を大幅に向上し,計算実行時においてCCPを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 4.199844472131922
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Molecular sequence analysis is crucial for comprehending several biological processes, including protein-protein interactions, functional annotation, and disease classification. The large number of sequences and the inherently complicated nature of protein structures make it challenging to analyze such data. Finding patterns and enhancing subsequent research requires the use of dimensionality reduction and feature selection approaches. Recently, a method called Correlated Clustering and Projection (CCP) has been proposed as an effective method for biological sequencing data. The CCP technique is still costly to compute even though it is effective for sequence visualization. Furthermore, its utility for classifying molecular sequences is still uncertain. To solve these two problems, we present a Nearest Neighbor Correlated Clustering and Projection (CCP-NN)-based technique for efficiently preprocessing molecular sequence data. To group related molecular sequences and produce representative supersequences, CCP makes use of sequence-to-sequence correlations. As opposed to conventional methods, CCP doesn't rely on matrix diagonalization, therefore it can be applied to a range of machine-learning problems. We estimate the density map and compute the correlation using a nearest-neighbor search technique. We performed molecular sequence classification using CCP and CCP-NN representations to assess the efficacy of our proposed approach. Our findings show that CCP-NN considerably improves classification task accuracy as well as significantly outperforms CCP in terms of computational runtime.
- Abstract(参考訳): 分子配列解析は、タンパク質とタンパク質の相互作用、機能的アノテーション、疾患の分類など、いくつかの生物学的過程を理解するために重要である。
膨大な数の配列と本質的に複雑なタンパク質構造は、そのようなデータを分析するのを困難にしている。
パターンの発見とその後の研究の促進には、次元削減と特徴選択のアプローチが必要である。
近年,生物シークエンシングデータに有効な手法として,CCP(Correlated Clustering and Projection)と呼ばれる手法が提案されている。
CCP技術は、シーケンスの可視化に有効であっても、計算に依然として費用がかかる。
さらに、分子配列を分類するための実用性はまだ不明である。
これら2つの問題を解決するため、分子配列データを効率的に前処理するCCP-NN(Nearest Neighbor Correlated Clustering and Projection)技術を提案する。
関連する分子配列をグループ化し、代表的スーパーシーケンスを生成するために、CCPはシーケンスとシーケンスの相関を用いる。
従来の手法とは対照的に、CCPは行列対角化に依存しないので、様々な機械学習問題に適用できる。
密度マップを推定し、最寄りの探索手法を用いて相関を計算する。
提案手法の有効性を評価するために,CCPおよびCCP-NN表現を用いた分子配列分類を行った。
以上の結果から,CCP-NNは分類タスクの精度を大幅に向上し,計算実行時においてCCPを著しく上回ることがわかった。
関連論文リスト
- K-Nearest-Neighbors Induced Topological PCA for scRNA Sequence Data
Analysis [0.3683202928838613]
永続ラプラシアン(PL)法とL$_2,1$ノルム正規化を組み合わせたトポロジカルプライマリコンポーネント分析(tPCA)法を提案する。
さらに, k-Nearest-Neighbor (kNN) の永続ラプラス的手法を導入し, 永続ラプラス的手法の堅牢性を向上させる。
提案したtPCA法とkNN-tPCA法の有効性を,11種類のscRNA-seqデータセット上で検証した。
論文 参考訳(メタデータ) (2023-10-23T03:07:50Z) - Unconstrained Stochastic CCA: Unifying Multiview and Self-Supervised Learning [0.13654846342364307]
PLS, CCA, Deep CCA の高速アルゴリズム群を標準 CCA と Deep CCA のベンチマークで示す。
我々のアルゴリズムは、従来の最先端ベンチマークよりもはるかに高速な収束と高い相関関係の回復を示す。
これらの改良により、非常に大きなバイオメディカルデータセットの第一種PSS分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-02T09:03:59Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Analyzing scRNA-seq data by CCP-assisted UMAP and t-SNE [0.0]
相関クラスタリングとプロジェクション(CCP)は、cRNA-seqデータを前処理する有効な方法として導入された。
CCPは、行列対角化を必要としないデータドメインアプローチである。
8つの公開データセットを使用することで、CCPは UMAP と t-SNE の可視化を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2023-06-23T19:15:43Z) - HD-Bind: Encoding of Molecular Structure with Low Precision,
Hyperdimensional Binary Representations [3.3934198248179026]
超次元計算(HDC)は、低精度二進ベクトル算術を活用できる学習パラダイムである。
本稿では,HDCに基づく推論手法が,より複雑な機械学習手法よりも90倍効率が高いことを示す。
論文 参考訳(メタデータ) (2023-03-27T21:21:46Z) - Fast conformational clustering of extensive molecular dynamics
simulation data [19.444636864515726]
本稿では,長い軌道の高速なコンフォーメーションクラスタリングを実現するために,教師なしのデータ処理ワークフローを提案する。
我々は密度に基づく空間クラスタリングアルゴリズム(HDBSCAN)と2つの次元削減アルゴリズム(cc_analysisとEncodermap)を組み合わせる。
4つのテストシステムの助けを借りて、このクラスタリングワークフローの機能とパフォーマンスを説明します。
論文 参考訳(メタデータ) (2023-01-11T14:36:43Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Correlation Clustering in Constant Many Parallel Rounds [42.10280805559555]
相関クラスタリングは教師なし学習において中心的なトピックであり、MLやデータマイニングに多くの応用がある。
本研究では,従来よりもかなり高速な超並列計算(MPC)アルゴリズムを提案する。
我々のアルゴリズムは,ノード数にメモリサブリニアを持つマシンを使用し,一定回数のラウンドでのみ実行しながら,一定の近似を返す。
論文 参考訳(メタデータ) (2021-06-15T21:45:45Z) - Exact Optimization of Conformal Predictors via Incremental and
Decremental Learning [46.9970555048259]
Conformal Predictors (CP) はMLメソッドのラッパーであり、データ分散に対する弱い仮定の下でエラー保証を提供する。
分類や回帰から異常検出まで幅広い問題に適している。
本研究では,基礎となるML手法と組み合わせて学習し,漸進的・漸進的学習を活用することにより,CP分類器を著しく高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-05T15:31:37Z) - Progressive Spatio-Temporal Graph Convolutional Network for
Skeleton-Based Human Action Recognition [97.14064057840089]
本稿では,グラフ畳み込みネットワークのためのコンパクトで問題固有のネットワークを,段階的に自動的に見つける手法を提案する。
骨格に基づく人体行動認識のための2つのデータセットの実験結果から,提案手法は競争力あるいはより優れた分類性能を有することが示された。
論文 参考訳(メタデータ) (2020-11-11T09:57:49Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。