論文の概要: Efficient Approximate Kernel Based Spike Sequence Classification
- arxiv url: http://arxiv.org/abs/2209.04952v1
- Date: Sun, 11 Sep 2022 22:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 14:07:25.243262
- Title: Efficient Approximate Kernel Based Spike Sequence Classification
- Title(参考訳): 効率的な近似カーネルに基づくスパイクシーケンス分類
- Authors: Sarwan Ali, Bikram Sahoo, Muhammad Asad Khan, Alexander Zelikovsky,
Imdad Ullah Khan, Murray Patterson
- Abstract要約: SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
- 参考スコア(独自算出の注目度): 56.2938724367661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models, such as SVM, for tasks like classification and
clustering of sequences, require a definition of distance/similarity between
pairs of sequences. Several methods have been proposed to compute the
similarity between sequences, such as the exact approach that counts the number
of matches between $k$-mers (sub-sequences of length $k$) and an approximate
approach that estimates pairwise similarity scores. Although exact methods
yield better classification performance, they pose high computational costs,
limiting their applicability to a small number of sequences. The approximate
algorithms are proven to be more scalable and perform comparably to (sometimes
better than) the exact methods -- they are designed in a "general" way to deal
with different types of sequences (e.g., music, protein, etc.). Although
general applicability is a desired property of an algorithm, it is not the case
in all scenarios. For example, in the current COVID-19 (coronavirus) pandemic,
there is a need for an approach that can deal specifically with the
coronavirus. To this end, we propose a series of ways to improve the
performance of the approximate kernel (using minimizers and information gain)
in order to enhance its predictive performance pm coronavirus sequences. More
specifically, we improve the quality of the approximate kernel using domain
knowledge (computed using information gain) and efficient preprocessing (using
minimizers computation) to classify coronavirus spike protein sequences
corresponding to different variants (e.g., Alpha, Beta, Gamma). We report
results using different classification and clustering algorithms and evaluate
their performance using multiple evaluation metrics. Using two datasets, we
show that our proposed method helps improve the kernel's performance compared
to the baseline and state-of-the-art approaches in the healthcare domain.
- Abstract(参考訳): シーケンスの分類やクラスタリングといったタスクのためのSVMのような機械学習(ML)モデルは、シーケンスのペア間の距離/類似性を定義する必要がある。
例えば、$k$-mers(長さ$k$のサブシーケンス)間のマッチング数をカウントする正確なアプローチと、ペアの類似度スコアを推定する近似アプローチである。
厳密な手法はより優れた分類性能をもたらすが、計算コストが高く、少数のシーケンスへの適用性に制限される。
近似アルゴリズムは、よりスケーラブルで、正確な方法と(時には)相性が良いことが証明されている -- 異なる種類のシーケンス(例えば音楽、タンパク質など)を扱う"一般的な"方法で設計されている。
一般適用性はアルゴリズムの望ましい性質であるが、すべてのシナリオにおいてそうではない。
例えば、現在のcovid-19(coonavirus)パンデミックでは、特に新型コロナウイルスに対処できるアプローチが必要である。
そこで本研究では,その予測性能を向上するために,近似カーネルの性能(最小化器と情報ゲインを用いた)を改善するための一連の方法を提案する。
具体的には、ドメイン知識(情報ゲインを用いた計算)と効率的な前処理(最小化処理を用いた)を用いて、近似カーネルの品質を改善し、異なる変種(アルファ、ベータ、ガンマなど)に対応するウイルススパイクタンパク質配列を分類する。
分類とクラスタリングの異なるアルゴリズムを用いて結果を報告し,複数の評価指標を用いてその性能を評価する。
提案手法は,2つのデータセットを用いて,医療領域のベースラインや最先端アプローチと比較してカーネルの性能を向上させる。
関連論文リスト
- MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - BioSequence2Vec: Efficient Embedding Generation For Biological Sequences [1.0896567381206714]
本稿では,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。
提案手法は,任意の距離への入力として利用することができる。
我々はSARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い、予測性能において最先端の埋め込みやカーネル手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-01T10:58:21Z) - ClaPIM: Scalable Sequence CLAssification using Processing-In-Memory [1.6124241068249217]
ClaPIMは、ハイブリッド・イン・クロスバーとニア・クロスバー・メムリシティブ・イン・メモリ(PIM)の概念に基づくスケーラブルなDNA配列分類アーキテクチャである。
Kraken2と比較すると、ClaPIMはより高度な分類品質(F1スコアの最大20倍)を提供し、1.8倍のスループット向上を示す。
論文 参考訳(メタデータ) (2023-02-16T13:30:36Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Ensemble Learning based on Classifier Prediction Confidence and
Comprehensive Learning Particle Swarm Optimisation for polyp localisation [6.212408891922064]
大腸癌(crc)は、多くの国で最初の死因である。
本稿では,医療用ポリープセグメンテーションアルゴリズムのアンサンブルを紹介する。
論文 参考訳(メタデータ) (2021-04-10T18:34:42Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - An Efficient Smoothing Proximal Gradient Algorithm for Convex Clustering [2.5182813818441945]
最近導入された凸クラスタリング手法は、凸最適化問題としてクラスタリングを定式化している。
最先端の凸クラスタリングアルゴリズムは大規模な計算とメモリ空間を必要とする。
本稿では,凸クラスタリングのための非常に効率的なスムーズな勾配法 (Sproga) を提案する。
論文 参考訳(メタデータ) (2020-06-22T20:02:59Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。