論文の概要: Vector Embeddings by Sequence Similarity and Context for Improved
Compression, Similarity Search, Clustering, Organization, and Manipulation of
cDNA Libraries
- arxiv url: http://arxiv.org/abs/2308.05118v1
- Date: Tue, 8 Aug 2023 17:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 14:59:22.579037
- Title: Vector Embeddings by Sequence Similarity and Context for Improved
Compression, Similarity Search, Clustering, Organization, and Manipulation of
cDNA Libraries
- Title(参考訳): 圧縮, 類似性検索, クラスタリング, 組織化, cDNAライブラリの操作改善のためのシーケンス類似性とコンテキストによるベクトル埋め込み
- Authors: Daniel H. Um, David A. Knowles, Gail E. Kaiser
- Abstract要約: 本稿では、フラット文字列遺伝子形式(FASTA/FASTQ5)の研究における、遺伝子の組織的数値表現の有用性を示す。
この解は、配列を別の表現に変換することで、生の配列自身と比較して、類似したグループへのクラスタリングを容易にする。
- 参考スコア(独自算出の注目度): 3.162643581562756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper demonstrates the utility of organized numerical representations of
genes in research involving flat string gene formats (i.e., FASTA/FASTQ5).
FASTA/FASTQ files have several current limitations, such as their large file
sizes, slow processing speeds for mapping and alignment, and contextual
dependencies. These challenges significantly hinder investigations and tasks
that involve finding similar sequences. The solution lies in transforming
sequences into an alternative representation that facilitates easier clustering
into similar groups compared to the raw sequences themselves. By assigning a
unique vector embedding to each short sequence, it is possible to more
efficiently cluster and improve upon compression performance for the string
representations of cDNA libraries. Furthermore, through learning alternative
coordinate vector embeddings based on the contexts of codon triplets, we can
demonstrate clustering based on amino acid properties. Finally, using this
sequence embedding method to encode barcodes and cDNA sequences, we can improve
the time complexity of the similarity search by coupling vector embeddings with
an algorithm that determines the proximity of vectors in Euclidean space; this
allows us to perform sequence similarity searches in a quicker and more modular
fashion.
- Abstract(参考訳): 本稿では、フラット文字列遺伝子形式(FASTA/FASTQ5)の研究における、遺伝子の組織的数値表現の有用性を示す。
FASTA/FASTQファイルには、ファイルサイズ、マッピングとアライメントの処理速度の遅さ、コンテキスト依存など、いくつかの制限がある。
これらの課題は、類似のシーケンスを見つけることに関わる調査やタスクを著しく妨げている。
この解は、配列を別の表現に変換することで、生の配列自身と比較して、類似したグループへのクラスタリングを容易にする。
各ショートシーケンスに独自のベクトル埋め込みを割り当てることで、cDNAライブラリの文字列表現に対する圧縮性能をより効率的にクラスタリングし、改善することができる。
さらに,コドン三重項の文脈に基づく交互座標ベクトル埋め込みの学習により,アミノ酸特性に基づくクラスタリングを示すことができる。
最後に、バーコードとcDNA配列をエンコードするためにこのシーケンス埋め込み法を用いることで、ユークリッド空間におけるベクトルの近接性を決定するアルゴリズムとベクトル埋め込みを結合することで、類似検索の時間的複雑さを向上させることができる。
関連論文リスト
- Associative Knowledge Graphs for Efficient Sequence Storage and Retrieval [3.355436702348694]
シーケンスの保存と認識に非常に効果的な連想的知識グラフを作成します。
個々のオブジェクト(ノードとして表現される)は、複数のシーケンスの一部あるいは単一のシーケンス内で繰り返し現れる。
このアプローチは、金融取引における異常検出や過去の行動に基づくユーザの振る舞いの予測など、さまざまな分野への応用の可能性を持っている。
論文 参考訳(メタデータ) (2024-11-19T13:00:31Z) - Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery [6.733319363951907]
textbfDy-merはスパースリカバリに基づく説明可能で堅牢な表現スキームである。
DNAプロモーターの分類における最先端のパフォーマンスを達成し、textbf13%の精度向上をもたらす。
論文 参考訳(メタデータ) (2024-07-06T15:08:31Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Linear normalised hash function for clustering gene sequences and
identifying reference sequences from multiple sequence alignments [4.34040512215583]
線形マッピングハッシュ関数と多重シーケンスアライメント(MSA)を組み合わせた新しい手法を開発した。
本手法は,ノカルディア属の16S rRNA遺伝子配列と高度に変異した(エンテロウイルス71のVP1ゲノム領域)配列を用いて評価した。
論文 参考訳(メタデータ) (2023-11-29T11:51:05Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For
Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。
本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。