論文の概要: BioSequence2Vec: Efficient Embedding Generation For Biological Sequences
- arxiv url: http://arxiv.org/abs/2304.00291v1
- Date: Sat, 1 Apr 2023 10:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:53:56.457648
- Title: BioSequence2Vec: Efficient Embedding Generation For Biological Sequences
- Title(参考訳): biosequence2vec:生物配列の効率的な埋め込み生成
- Authors: Sarwan Ali, Usama Sardar, Murray Patterson, Imdad Ullah Khan
- Abstract要約: 本稿では,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。
提案手法は,任意の距離への入力として利用することができる。
我々はSARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い、予測性能において最先端の埋め込みやカーネル手法よりも優れています。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation learning is an important step in the machine learning
pipeline. Given the current biological sequencing data volume, learning an
explicit representation is prohibitive due to the dimensionality of the
resulting feature vectors. Kernel-based methods, e.g., SVM, are a proven
efficient and useful alternative for several machine learning (ML) tasks such
as sequence classification. Three challenges with kernel methods are (i) the
computation time, (ii) the memory usage (storing an $n\times n$ matrix), and
(iii) the usage of kernel matrices limited to kernel-based ML methods
(difficult to generalize on non-kernel classifiers). While (i) can be solved
using approximate methods, challenge (ii) remains for typical kernel methods.
Similarly, although non-kernel-based ML methods can be applied to kernel
matrices by extracting principal components (kernel PCA), it may result in
information loss, while being computationally expensive. In this paper, we
propose a general-purpose representation learning approach that embodies kernel
methods' qualities while avoiding computation, memory, and generalizability
challenges. This involves computing a low-dimensional embedding of each
sequence, using random projections of its $k$-mer frequency vectors,
significantly reducing the computation needed to compute the dot product and
the memory needed to store the resulting representation. Our proposed fast and
alignment-free embedding method can be used as input to any distance (e.g., $k$
nearest neighbors) and non-distance (e.g., decision tree) based ML method for
classification and clustering tasks. Using different forms of biological
sequences as input, we perform a variety of real-world classification tasks,
such as SARS-CoV-2 lineage and gene family classification, outperforming
several state-of-the-art embedding and kernel methods in predictive
performance.
- Abstract(参考訳): 表現学習は、機械学習パイプラインにおける重要なステップである。
現在の生物学的シーケンシングデータボリュームを考えると、明示的な表現の学習は、結果として生じる特徴ベクトルの次元性のために禁止される。
カーネルベースのメソッド、例えばSVMは、シーケンス分類などの機械学習(ML)タスクに対して、効果的で有用な代替手段である。
カーネルメソッドの3つの課題
(i)計算時間
(ii)メモリ使用量(n\times n$マトリクスを格納)及び
3)カーネル行列の使用はカーネルベースのML法に限られる(非カーネル分類器の一般化は困難)。
その間
(i)近似手法、チャレンジを用いて解くことができる。
(ii) 典型的なカーネルメソッドは残る。
同様に、カーネルベースのML手法は、主成分(カーネルPCA)を抽出することでカーネル行列に適用できるが、計算コストが高く、情報損失をもたらす可能性がある。
本稿では,計算やメモリ,一般化可能性の課題を避けつつ,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。
これは各シーケンスの低次元埋め込みを計算し、$k$-merの周波数ベクトルのランダムなプロジェクションを使い、ドット積と結果の表現を保存するために必要なメモリの計算を著しく削減する。
提案する高速アライメントフリー組込み手法は,任意の距離(例えば,$k$近傍)と非距離(例えば決定木)への入力として,分類およびクラスタリングタスクのためのml法として使用できる。
バイオシークエンスを入力として,SARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い,最先端の埋め込み法やカーネル法よりも予測性能が優れている。
関連論文リスト
- Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For
Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。
本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Learning "best" kernels from data in Gaussian process regression. With
application to aerodynamics [0.4588028371034406]
本稿では,ガウス過程の回帰/クリギングサロゲートモデリング手法におけるカーネルの選択/設計アルゴリズムを紹介する。
アルゴリズムの最初のクラスはカーネルフローであり、機械学習の分類の文脈で導入された。
アルゴリズムの第2のクラスはスペクトル核リッジ回帰と呼ばれ、近似される関数のノルムが最小となるような「最良の」カーネルを選択することを目的としている。
論文 参考訳(メタデータ) (2022-06-03T07:50:54Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Learning in High-Dimensional Feature Spaces Using ANOVA-Based Fast
Matrix-Vector Multiplication [0.0]
カーネル行列は一般に密度が高く大規模である。特徴空間の次元によっては、合理的な時間における全てのエントリの計算さえも難しい課題となる。
そこで我々は,ANOVAカーネルを用いて低次元の特徴空間に基づいて複数のカーネルを構築し,行列ベクトル積を実現する高速アルゴリズムを提案する。
特徴グループ化アプローチに基づいて,カーネルリッジ回帰と事前条件付き共役勾配解法を選択する学習手法に,高速な行列ベクトル積を組み込む方法を示す。
論文 参考訳(メタデータ) (2021-11-19T10:29:39Z) - Tensor Network Kalman Filtering for Large-Scale LS-SVMs [17.36231167296782]
最小二乗支援ベクトルマシンは非線形回帰と分類に使用される。
テンソルネットワークとカルマンフィルタに基づくフレームワークは、要求されるメモリと計算の複雑さを軽減する。
その結果,提案手法は高い性能を達成でき,代替手法が計算能力に欠ける場合には特に有用であることがわかった。
論文 参考訳(メタデータ) (2021-10-26T08:54:03Z) - The Fast Kernel Transform [21.001203328543006]
本稿では,FKT(Fast Kernel Transform:高速カーネル変換)を提案する。
FKT はガウス、マテルン、ラショナル四次共分散関数や物理的に動機付けられたグリーン関数など、幅広い種類のカーネルに容易に適用できる。
本稿では、時間と精度のベンチマークを提供することによりFKTの有効性と汎用性を説明し、それを近隣埋め込み(t-SNE)とガウス過程を大規模実世界のデータセットに拡張する。
論文 参考訳(メタデータ) (2021-06-08T16:15:47Z) - Spectral Learning on Matrices and Tensors [74.88243719463053]
テンソル分解は行列法で欠落する潜伏効果を拾うことができることを示す。
また,効率的なテンソル分解法を設計するための計算手法についても概説する。
論文 参考訳(メタデータ) (2020-04-16T22:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。