論文の概要: Linear normalised hash function for clustering gene sequences and
identifying reference sequences from multiple sequence alignments
- arxiv url: http://arxiv.org/abs/2311.17964v1
- Date: Wed, 29 Nov 2023 11:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:26:17.853250
- Title: Linear normalised hash function for clustering gene sequences and
identifying reference sequences from multiple sequence alignments
- Title(参考訳): 遺伝子配列をクラスタリングし、複数配列アライメントから参照配列を同定するための線形正規化ハッシュ関数
- Authors: Manal Helal, Fanrong Kong, Sharon C-A Chen, Fei Zhou, Dominic E Dwyer,
John Potter, Vitali Sintchenko
- Abstract要約: 線形マッピングハッシュ関数と多重シーケンスアライメント(MSA)を組み合わせた新しい手法を開発した。
本手法は,ノカルディア属の16S rRNA遺伝子配列と高度に変異した(エンテロウイルス71のVP1ゲノム領域)配列を用いて評価した。
- 参考スコア(独自算出の注目度): 4.34040512215583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this study was to develop a method that would identify the cluster
centroids and the optimal number of clusters for a given sensitivity level and
could work equally well for the different sequence datasets. A novel method
that combines the linear mapping hash function and multiple sequence alignment
(MSA) was developed. This method takes advantage of the already sorted by
similarity sequences from the MSA output, and identifies the optimal number of
clusters, clusters cut-offs, and clusters centroids that can represent
reference gene vouchers for the different species. The linear mapping hash
function can map an already ordered by similarity distance matrix to indices to
reveal gaps in the values around which the optimal cut-offs of the different
clusters can be identified. The method was evaluated using sets of closely
related (16S rRNA gene sequences of Nocardia species) and highly variable (VP1
genomic region of Enterovirus 71) sequences and outperformed existing
unsupervised machine learning clustering methods and dimensionality reduction
methods. This method does not require prior knowledge of the number of clusters
or the distance between clusters, handles clusters of different sizes and
shapes, and scales linearly with the dataset. The combination of MSA with the
linear mapping hash function is a computationally efficient way of gene
sequence clustering and can be a valuable tool for the assessment of
similarity, clustering of different microbial genomes, identifying reference
sequences, and for the study of evolution of bacteria and viruses.
- Abstract(参考訳): 本研究の目的は,クラスタセンタロイドとクラスタの最適数を所定の感度レベルで識別し,異なるシーケンスデータセットに対して等しく機能する手法を開発することである。
線形マッピングハッシュ関数と多重シーケンスアライメント(MSA)を組み合わせた新しい手法を開発した。
この方法は、MSA出力から既にソートされた類似配列を利用しており、異なる種に対する参照遺伝子ボウチャーを表現できるクラスタ、クラスタカットオフ、クラスタセントロイドの最適な数を特定する。
線形写像ハッシュ関数は、既に順序付けられた類似度距離行列をインデックスにマッピングして、異なるクラスタの最適カットオフを識別できる値のギャップを明らかにすることができる。
本手法は、近縁な16s rrna遺伝子配列と高度に可変なエンテロウイルス71のvp1ゲノム領域のセットを用いて評価し、既存の教師なし機械学習クラスタリング法や次元縮小法よりも優れていた。
この方法は、クラスタの数やクラスタ間の距離に関する事前の知識を必要とせず、サイズや形状の異なるクラスタを処理し、データセットと線形にスケールする。
MSAと線形マッピングハッシュ関数の組み合わせは、遺伝子配列のクラスタリングの計算学的に効率的な方法であり、類似性の評価、異なる微生物ゲノムのクラスタリング、参照配列の同定、細菌とウイルスの進化の研究に有用なツールである。
関連論文リスト
- HBIC: A Biclustering Algorithm for Heterogeneous Datasets [0.0]
Biclusteringは、データマトリックス内で行と列を同時にクラスタすることを目的とした、教師なしの機械学習アプローチである。
複素異種データから有意義なビクラスタを発見することが可能な,HBICと呼ばれるビクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-23T16:48:10Z) - Adaptive Graph Convolutional Subspace Clustering [10.766537212211217]
スペクトル型サブスペースクラスタリングアルゴリズムは多くのサブスペースクラスタリングアプリケーションにおいて優れた性能を示している。
本稿では,グラフ畳み込みネットワークにヒントを得たグラフ畳み込み手法を用いて特徴抽出法と係数行列制約を同時に開発する。
AGCSCを用いることで、元のデータサンプルの集合的特徴表現がサブスペースクラスタリングに適していると主張する。
論文 参考訳(メタデータ) (2023-05-05T10:27:23Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - A Novel Granular-Based Bi-Clustering Method of Deep Mining the
Co-Expressed Genes [76.84066556597342]
ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。
残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。
本稿では,グラニュラーコンピューティングの理論を取り入れた新しい2クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-12T02:04:40Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。