論文の概要: Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data
- arxiv url: http://arxiv.org/abs/2211.08267v1
- Date: Tue, 15 Nov 2022 16:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 16:12:27.593291
- Title: Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data
- Title(参考訳): Reads2Vec: Readsデータの高速な高スループットシークエンシング
- Authors: Prakash Chourasia, Sarwan Ali, Simone Ciccolella, Gianluca Della
Vedova, Murray Patterson
- Abstract要約: 本稿では,アライメント不要な埋め込み手法であるReads2Vecを提案する。
シミュレーションデータを用いた実験により,提案手法は既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とより優れたクラスタリング特性が得られることが示された。
- 参考スコア(独自算出の注目度): 2.362412515574206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The massive amount of genomic data appearing for SARS-CoV-2 since the
beginning of the COVID-19 pandemic has challenged traditional methods for
studying its dynamics. As a result, new methods such as Pangolin, which can
scale to the millions of samples of SARS-CoV-2 currently available, have
appeared. Such a tool is tailored to take as input assembled, aligned and
curated full-length sequences, such as those found in the GISAID database. As
high-throughput sequencing technologies continue to advance, such assembly,
alignment and curation may become a bottleneck, creating a need for methods
which can process raw sequencing reads directly.
In this paper, we propose Reads2Vec, an alignment-free embedding approach
that can generate a fixed-length feature vector representation directly from
the raw sequencing reads without requiring assembly. Furthermore, since such an
embedding is a numerical representation, it may be applied to highly optimized
classification and clustering algorithms. Experiments on simulated data show
that our proposed embedding obtains better classification results and better
clustering properties contrary to existing alignment-free baselines. In a study
on real data, we show that alignment-free embeddings have better clustering
properties than the Pangolin tool and that the spike region of the SARS-CoV-2
genome heavily informs the alignment-free clusterings, which is consistent with
current biological knowledge of SARS-CoV-2.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)パンデミックの開始以来、SARS-CoV-2に現れる膨大なゲノムデータが、そのダイナミクスを研究する従来の方法に挑戦してきた。
その結果、現在利用可能なSARS-CoV-2の数百万のサンプルにスケールできるパンゴリンのような新しい手法が現れた。
このようなツールは、GISAIDデータベースに見られるような、入力を組み立て、アライメントし、キュレートされたフル長シーケンスとして扱うように調整されている。
高スループットシークエンシング技術が進歩を続けるにつれ、アセンブリ、アライメント、キュレーションがボトルネックとなり、生のシークエンシングを直接処理できる方法の必要性が生じる。
本稿では,アライメントフリーな組込み手法であるreads2vecを提案する。このアプローチでは,アセンブリを必要とせず,生のシークエンシング読み込みから直接固定長特徴ベクトル表現を生成することができる。
さらに、そのような埋め込みは数値表現であるため、高度に最適化された分類およびクラスタリングアルゴリズムに適用することができる。
シミュレーションデータを用いた実験により,既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とクラスタリング特性が得られた。
実データでは、アライメントのない埋め込みはパンゴリンツールよりも優れたクラスタリング特性を示し、SARS-CoV-2ゲノムのスパイク領域は、現在のSARS-CoV-2の生物学的知識と一致したアライメントのないクラスタリングを強く通知する。
関連論文リスト
- GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation [0.7874708385247353]
SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
論文 参考訳(メタデータ) (2023-04-06T06:46:17Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Clue Me In: Semi-Supervised FGVC with Out-of-Distribution Data [44.90231337626545]
半教師付き視覚分類のための配布外データ処理に特化した新しい設計を提案する。
実験の結果, (i) 提案手法は分布外データに対して良好なロバスト性を示し, (ii) 先行技術を用いて, 性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-12-06T07:22:10Z) - Robust Representation and Efficient Feature Selection Allows for
Effective Clustering of SARS-CoV-2 Variants [0.0]
SARS-CoV-2ウイルスは異なる変種を含み、それぞれ異なる変異を持つ。
SARS-CoV-2ゲノムの変異の多くは、ゲノム配列のスパイク領域で不均等に起こる。
本研究では,異なる既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスタ化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T21:18:52Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - A Novel Granular-Based Bi-Clustering Method of Deep Mining the
Co-Expressed Genes [76.84066556597342]
ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。
残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。
本稿では,グラニュラーコンピューティングの理論を取り入れた新しい2クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-12T02:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。